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本 书 是 计算 机 组 成 的 经 典 教材 。 全 书 着 眼 于 当前 计算 机 设计 中 最 基本 的 概念 ， 展 示 了 软 
硬件 间 的 关系 ， 并 全 面 介 绍 当 代 计 算 机 系统 发 展 的 主流 技术 和 最 新 成 就 。 

同 以 往 版 本 一 样 ， 本 书 采用 MIPS 处 理 器 作为 展示 计算 机 硬件 技术 、 汇 编 语言 、 计 算 机 算 
术 、 流 水 线 、 存 储 器 层次 结构 以 及 IO 等 基本 功能 的 核心 。 书 中 强调 了 计算 机 从 串 行 到 并 行 
的 最 新 革新 ， 在 每 章 中 都 纳 人 了 并 行 硬 件 和 软件 的 主题 ， 以 软 硬 件 协 间 设计 发 挥 多 核 性 能 为 
最 终 目 标 。 

本 书 适合 作为 高 等 院 校 相关 专业 的 本 科 生 和 研究 生 教材 ， 对 广大 技术 人 员 也 有 很 高 的 参 
考 价值 。 

David A. Patterson and John L. Hennessy: Computer Organization and Design: The Hardware/ 
Software Interface, Fourth Edition (ISBN 978-0-12-374493-7) ， 

Copyright © 2009 by Elsevier Inc. All rights reserved. 

Authorized Simplified Chinese translation edition published by the Proprietor. 

IJSBN ，978-981-272-338-3 

Copyright © 2012 by Elsevier (Singapore) Pte Ltd. All rights reserved. 

Printed in China by China Machine Press under special arrangement with Elsevier (Singapore) 
Pte Itd. This edition is authorized for sale ip China only, excluding Hong Kong SAR and Tai- 
wan. Unauthorized export of this edition is a violation of the Copyright Act. Violation of this Law is sub- 
ject to Civil and Criminal Penalties. 


本 书简 体 中 文 版 由 机 械 工 业 出 版 社 与 Elsevier (Singapore) Pte Ltd. 在 中 国 大 陆 境内 合作 
出 版 。 本 版 仅 限 在 中 国境 内 (不 包括 中 国 香港 、 澳 门 特别 行政 区 及 中 国 台湾 地 区 ) 出 版 及 标 
价 销售 。 未 经 许可 之 出 口 ， 视 为 违反 著作 权 法 ， 将 受 法 律 之 制裁 。 

封底 无 防伪 标 均 为 盗版 

版 权 所 有 ， 侵 权 必 究 

本 书法 律 顾问 ”北京 市 展 达 律师 事务 所 


本 书 版 权 登 记号 : 图 字 : 01-2009-3517 
图 书 在 版 编目 (CIP) 数据 


计算 机 组 成 与 设计 : 硬件 /软件 接口 ( 原 书 第 4 版 )/( 美 ， 帕 特 铬 (Patterson，D. A. )， 
(类) 至 尼斯 (Hennessy, J.L ) 著 ; 康 继 昌 ， 攀 晓 极 ， 安 建 峰 等 译 . 一 北京 : 机 械 工业 出 版 
社 ，2011.11 

(计算 机 科学 丛书 ) 

书 名 原文 : Computer Organization and Design: The Hardware/Software Interface ，Fourth Edition 

ISBN 978-7-111-35305-8 


1 计 … 开外 帕 … 四 享 … 图 康 …， 加 樊 … 人 @ 安 … 焉 . 计算 机 体系 结构 
NV. TP303 


中 国 版 本 图 书馆 CIP 数据 核 字 (2011) 第 136488 号 
机 械 工业 出 版 社 (北京 市 西城 区 百 万 庄 大 街 22 号 ”邮政 编码 ”100037) 
责任 编辑 : 朱 秀 英 
北京 诚信 伟业 印刷 有 限 公 司 印 刷 
2012 年 1 月 第 1 版 第 1 次 印刷 
]85mm x 260mm ，34.5 印张 
标准 书号 ; ISBN 978-7-111-35305-8 
ISBN 978-7-89433-047-5〔〈 光 盘 ) 
定价 : 99. 00 元 〈 附 光盘 ) 
几 购 本 书 ， 如 有 缺 页 、 倒 页 、 脱 页 ， 由 本 社 发 行 部 调换 
客服 热线 : (010) 88378991，88361066 
购书 热线 : (010) 68326294; 88379649，68995259 
投稿 热线 : (010) 88379604 
读者 信箱 : hzjsj@hzbook.com 


| 出 版 者 的 话 


Computer Organization and Design: The Hardware/ Software Inlerface, 4E 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈 
出 、 独 领 风 骚 。 在 元 业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 
许多 泰山 北斗 同时 号 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 几 科 学 著作 ， 不 仅 父 划 了 研究 的 
和 范畴， 还 揭示 了 和 尝 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 
减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 
切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举 
足 轻 重 。 在 我 国信 息 技 术 发 展 时间 较 得 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 
年 间 积 次 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 
我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 大 学 
的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 团 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw- Hil ， 
Elsevier，MIT，jJohn Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 和 良好 的 合作 关系 ， 从 他 们 
现 有 的 数 百 种 教材 中 桔 选 出 Andrew S. Tanenbaum ， Bjarne Stroustrub ，Brain W. Kernighan ，Dennis 
Ritchie, Jim Gray, Afred V. Aho, John 下 . Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz，Wil- 
liam Stallings ，Donald E. Knuth，jJohn L. Hennessy，Larry 工 Peterson 等 大 师 名 家 的 一 批 经 由 作品 ， 
以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 
了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 
的 选 题 指导 ， 还 不 酬劳 苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 
的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品 
种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 版 
经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 书 
有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 
育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 
的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建 
议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ， www. hzbook. com 
电子 邮件 : hzjsj@ hzbook. com 
联系 电话 :， (010) 88379604 


联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 ，100037 华章 科技 图 书 出 版 中 心 
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David A. Patterson 和 John L. Hennessy 是 目前 国际 知名 院 校 计算 机 专业 领域 的 双 巨 壁 。 他 们 合 
著 的 《Computer Organization and Design: The Hardware/Software Interface》 又 发 行 了 第 4 版 。 该 书 
是 他 们 对 计算 机 组 织 研究 和 实践 的 全 面 而 系统 的 总 结 。 上 有 目前， 世界 上 很 多 大 学 的 计算 机 原理 课 
程 都 采用 这 本 教材 ， 国 内 也 有 不 少 大 学 采用 这 本 教材 。 

我 们 认为 第 4 版 最 主要 的 特点 是 强调 了 计算 机 从 串 行 到 并 行 的 最 新 变革 。 本 版 在 每 章 中 都 强 
调 了 并 行 硬件 和 软件 的 主题 ， 以 软 硬 件 协同 设计 发 挥 多 核 性 能 为 最 终 目 标 。 本 版 特别 描述 了 一 
种 评测 多 核 性 能 的 Roofline 模型 ， 使 用 SPEC 2006 程序 集 更 新 了 所 有 处 理 器 的 性 能 评测 结果 。 此 
外 ， 本 版 还 首次 描述 了 面向 可 视 计算 优化 的 高 度 多 线程 多 处 理 器 GPU。 

感谢 清华 大 学 郑 纬 民 教授 对 前 三 版 中 译本 所 做 的 工作 ， 是 他 使 得 这 本 重要 教材 在 国内 有 了 
广泛 的 读者 。 

除 封面 署名 之 外 ， 西 北 工业 大 学 计算 机 学 院 的 史 莉 去 、 姚 涛 、 任 向 隆 、 郑 乔 石 、 韩 立 敏 等 也 
参加 了 本 书 的 翻译 和 校对 工作 。 由 于 译 者 水 平 有 限 ， 文 中 肯定 存在 一 些 翻译 不 当 或 理解 欠 妥 的 
地 方 ， 和 希望 读者 批评 指正 。 


康 继 昌 
2011 年 10 月 于 西北 工业 大 学 
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神秘 是 一 种 我 们 能 够 体验 到 的 最 美丽 的 东西 。 
它 是 所 有 真正 艺术 和 科学 的 源泉 。 





一 阿尔 伯 特 ' 爱 因 斯 坦 , 《我 的 世界 观 》，1930 


关于 本 书 

我 们 认为 ， 在 学 习 计 算 机 科学 与 工程 时 ， 除 了 掌握 计算 的 基本 原理 外 ， 还 应 该 了 解 该 领域 当 
今 的 最 新 状态 。 我 们 也 感觉 到， 计算 领域 中 各 种 读者 希望 有 机 会 欣赏 到 计算 机 系统 的 组 织 范 例 。 
后 者 决定 了 计算 机 系统 的 功能 、 性 能 ， 甚 至 成 功 与 否 。 

现代 计算 机 技术 需要 各 种 计算 方面 的 专家 ， 他 们 不 仅 能 理解 硬件 ， 而 且 能 理解 软件 。 硬 件 和 
软件 之 间 在 许多 层次 上 的 相互 关系 ， 提 供 了 理解 计算 基本 原理 的 框架 。 无 论 你 的 主要 兴趣 是 硬 
件 还 是 软件 ， 是 计算 机 科学 还 是 电气 工程 ， 计 算 机 组 成 与 设计 中 的 中 心思 想 是 相同 的 。 因 而 ， 本 
书 着 重 于 展示 硬件 与 软件 之 间 的 相互 关系 ， 重 点 介绍 概念 ， 这 是 当今 计算 机 的 基础 。 

最 近 单 处 理 器 已 发 展 为 多 核 微 处 理 器 ， 这 也 印证 了 本 书 自 第 1 版 就 预测 的 这 一 发 展 前 景 。 有 
些 程序 员 扳 视 了 这 一 发 展 趋势 ， 他 们 仍 希望 计算 机 体系 结构 专家 、 编 译 器 编写 者 和 芯片 工程 师 
能 够 帮助 他 们 ， 让 程序 不 作 任何 改进 就 可 以 更 快 地 运行 在 新 型 处 理 器 上 。 但 是 ， 这 样 的 时 代 已 经 
过 去 了 。 为 了 使 程序 更 快 地 运行 ， 必 须 将 其 并 行 化 。 程 序 员 在 编程 时 不 用 考虑 硬件 的 并 行 特性 ， 
这 一 目标 要 很 多 年 才能 实现 。 我 们 认为 ， 至 少 在 下 一 个 十 年 里 ， 大 多 数 程序 员 必 须 理解 软 硬 件 接 
口 ， 才 能 使 程序 在 并 行 计算 机 上 有 效 地 运行 。 

本 书 适合 以 下 读者 : 在 汇编 语言 或 逻辑 设计 方面 只 有 少许 经 验 ， 需 要 理解 基本 的 计算 机 组 
成 的 读者 ; 具有 汇编 语言 或 逻辑 设计 的 基础 ， 需 要 学 习 如 何 设计 计算 机 ,或 要 进一步 理解 计算 机 
系统 是 如 何 工 作 的 读者 。 


与 本 书 相关 的 另 一 本 书 


有 些 读者 可 能 已 熟悉 作者 的 另 一 本 书 《 Computer Architecture: A Quantitative Approach》2 。 该 
书 已 广 为 流 传 ， 经 常 以 作者 姓名 命名 ， 称 为 “Hennessy and Patterson” (本 书 则 经 常 被 称 为 “Patter- 
son and Hennessy”) 。 我 们 写 该 书 的 目的 是 要 用 坚实 的 工程 基础 和 量化 的 性 价 比 权衡 ， 来 描述 计 
算 机 体系 结构 的 原理 。 我 们 以 商用 产品 为 例 ， 用 测量 的 方法 来 描述 实际 的 设计 经 验 。 我 们 的 目标 
是 用 量化 的 方法 而 不 是 用 描述 的 方法 学 习 计算 机 体系 结构 ， 希 望 这 一 方法 有 助 于 培养 能 精确 理 
解 计算 机 的 专业 人 才 。 

本 书 的 大 多 数 读 者 并 不 一 定 要 成 为 计算 机 体系 结构 的 设计 者 。 但 是 ， 未 来 软件 设计 人 员 对 
与 软件 系统 一 起 工作 的 基本 硬件 技术 的 理解 程度 ， 将 严重 影响 软件 系统 的 性 能 和 能 效 。 因 此 ， 纺 
详 器 编写 者 、 操 作 系 统 设计 者 、 数 据 库 程序 员 ， 以 及 其 他 大 多 数 软件 工程 师 对 本 书 提出 的 原理 必 
须 有 充分 的 了 解 。 同 样 ， 硬 件 设计 者 也 必须 清楚 地 理解 他 们 的 工作 对 应 用 软件 的 影响 ， 

所 以 ， 本 书 的 内 容 远 多 于 “ Hennessy and Patterson”， 而 且 这 些 内 容 已 大 量 修订 ， 以 适应 不 同 
专业 的 读者 。 我 们 对 再 版 “Hennessy and Patterson” 时 删 除 大 量 介绍 性 材料 的 效果 感到 满意 ， 这 
使 得 新 版 与 第 1 版 内 容 的 重 炙 大 大 降低 ， 本 书 亦 是 如 此 。 


名 机 械 工业 出 版 社 已 出 版 了 本 书 的 第 3 版 、 第 4 版 和 第 5 版 影印 书 ， 书 名 为 《计算 机 体系 结构 : 量化 研究 方法 》。 


VI 


第 4 版 的 修订 目的 

第 4 版 的 修订 目的 包括 : 第 一 ， 描 述 微 处 理 右 的 多 核 昔 合 ， 全 书 将 贯穿 并 行 软 硬 件 的 思想 ; 
第 二 ,梳理 已 有 的 内 容 以 腾 出 篇 幅 介 绍 并 行 性 ; 第 三 ， 从 总 体 上 提高 教材 水 平 ; 第 四 ， 更 新 技术 
内 容 ， 以 反映 自 2004 年 第 3 版 出 版 以 来 业界 的 新 变化 ; 第 五 ， 利 用 当今 互联 网 时 代 的 有 利 条 件 ， 
提供 了 大 量 有 用 的 练习 题 。 

在 详细 介绍 第 4 版 的 修订 目的 之 前 ， 首 先 看 下 表 。 该 表 给 出 了 本 书 的 主要 内 容 ， 并 为 关注 硬 
件 和 关注 软件 的 两 种 读者 分 别 进行 了 导读 。 其 中 , 第 1、4、5 和 7 章 对 两 种 读者 是 同样 重要 的 。 
第 1 竟 更 新 了 引言 部 分 ， 增 加 了 功 耗 重要 性 和 由 其 引出 的 微 处 理 器 从 单 核 转向 多 核 的 讨论 ， 以 及 
性 能 评价 和 基准 测试 程序 的 相关 材料 〈 这 在 第 3 版 中 是 独立 的 一 章 ) 。 第 2 章 对 于 硬件 读者 来 说 
很 可 能 是 复习 性 材料 ; 而 对 于 软件 读者 来 说 是 重要 的 阅读 材料 ， 特 别 是 想 要 深入 学 习 编 译 器 和 
面 癌 对 象 语言 的 读者 。 它 包括 第 3 版 中 第 3 章 的 内 容 ， 介 绍 了 完整 的 MIPS 体系 结构 ( 浮 点 指令 
除外 )。 第 3 章 适合 对 定点 运算 或 者 对 浮 点 运算 感 兴趣 的 读者 ， 有 些 人 可 能 不 需要 学 习 第 3 章 ， 
可 以 跳 过 去 。 第 4 章 是 把 第 3 版 的 两 章 合 并 起 来 介绍 流水 线 处 理 器 。 其 中 ,4. 1 节 、4.5 节 和 
4. 10 市 为 关注 软件 的 读者 提供 了 流水 线 概述 。 关 注 硬件 的 读者 将 发 现 第 4 章 提供 了 流水 线 处 理 
从 的 核心 技术 ,读者 需要 根据 自己 的 专业 背景 ,决定 是 否 首 先 阅 读 附录 C 中 提供 的 逻辑 设计 部 
分 。 第 5 章 和 第 6 章 描述 的 存储 器 对 关注 软件 的 读者 是 极为 重要 的 ， 如 果 时 间 人 允许 ， 其 他 读者 也 应 
该 尽量 深入 阅读 。 第 7 章 介绍 了 多 核 、 多 处 理 器 和 集群 ， 是 业界 最 新 的 内 容 ， 每 个 人 都 应 该 阅读 。 
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第 7 章 多 核 、 多 处 理 吕 和 集群 g8 7 14 《历史 
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第 4 版 修订 的 第 一 个 目的 是 使 第 3 版 位 于 光盘 中 作为 单独 一 章 的 并 行 性 成 为 本 书 最 为 重要 的 
内 容 ， 其 中 最 为 明显 的 例子 是 第 7 章 。 特 别 需 要 说 明 的 是 , 第 7 章 引 入 了 Roofline (屋顶 线 ) 性 
能 模型 ， 并 将 之 用 于 对 4 个 新 型 多 核 体 系 结构 的 性 能 评价 。 评 价 结果 表明 尾 顶 线 模型 对 于 多 核 微 
处 理 需 具有 相当 的 洞察 力 ， 可 以 媲美 于 cache 的 3C 模型 。 
在 明确 了 并 行 性 的 重要 地 位 之 后 ， 除 了 在 第 7 章 专门 讲述 并 行 之 外 ， 本 版 在 前 6 章 中 的 每 一 
草 都 专门 开辟 一 节 强 调 了 并 行 性 。 
e。 1.6 沧海 巨变 : 从 单 处 理 器 向 多 处 理 器 转变 “指出 功 耗 的 限制 如 何人 迫使 业界 转向 并 行 性 
以 及 并 行 性 为 什么 是 有 益 的 。 

。 2. 11 并 行 与 指令 : 同步 ”讨论 了 共享 变量 的 加 锁 ， 尤 其 是 MIPS 的 Load Linked 和 Store 
Conditional 指令 。 

。 3.6 并 行 性 和 计算 机 算术 ; 结合 律 ”讨论 了 数值 精度 与 浮 点 运算 的 挑战 。 

。 4.10 并 行 和 高 级 指令 级 并 行 ” 讨 论 了 各 种 高 级 指令 级 并 行 (ILP)， 包括 超 标量 、 推 测 
和 超 长 指令 字 (VLIW) 、 循 环 展开 和 乱 序 操 作 (000) ， 同 时 也 对 流水 线 深度 和 功 耗 之 


间 的 关系 进行 了 讨论 。 

5.8 并 行 与 存储 器 层次 结构 : cache 一 致 性 ”讨论 了 cache 一 致 性 、 连贯 性 和 侦 听 协 
议 等 。 

。 6.9 并 行 性 与 LO: 廉价 磁盘 宛 余 阵 列 。 将 RAID 描述 成 IO 系统 和 高 效 可 用 的 ICO 
系统 。 


第 7 章 总 结 了 发 展 并 行 性 的 乐观 理由 ,分 析 了 为 何 本 次 并 行 性 的 发 展 应 该 比 过 去 更 加 成 功 。 

令 我 特别 高 兴 的 是 ，NVIDIA 的 首席 科学 家 David Kirk 和 首席 架构 师 John Nickolls 为 本 版 撰写 
了 关于 图 形 处 理 器 GPU 的 附录 A。GPU 是 对 计算 机 体系 结构 的 一 种 新 的 、 有 趣 的 推动 ， 附 录 A 
第 一 次 对 CPU 进行 了 深入 介绍 。 该 附录 基于 本 版 的 并 行 主题 ， 提 出 了 一 种 计算 风格 : 允许 程序 
员 以 多 指令 多 数据 ( MIMD) 的 方式 思考 ， 然 而 硬件 在 任何 可 能 的 时 候 仍 尽量 以 单 指令 多 数据 
(SIMD) 的 风格 执行 。 由 于 GPU 价格 便宜 并 且 使 用 广泛 一 一 甚至 在 很 多 笔记 本 电脑 中 都 可 拷 到 
记 们 一 一 并 且 它 们 的 编程 环境 是 免费 可 用 的 ， 所 以 它们 提供 了 一 个 可 用 于 许多 人 进行 实验 的 并 
行 硬件 平台 。 

第 一 个 目的 是 梳理 该 书 ， 以 便 为 介绍 并 行 方面 的 新 内 容留 出 空间 。 第 一 步 是 简单 地 使 用 更 
细 怪 的 梳理 方式 对 前 三 版 累积 下 来 的 所 有 段落 从 前 到 后 进行 愉 查 ,看 它们 是 否 仍 有 在 书 中 存在 
的 需要 。 粗 略 的 改变 是 章节 的 合并 以 及 主题 的 舍弃 。Mark Hil 建议 会 弃 书 中 多 周期 处 理 器 的 实 
现 这 记分 内 容 ， 取 而 代 之 的 是 ， 在 存储 器 层次 的 章节 中 增加 有 关 多 周期 cache 控制 器 的 内 容 。 这 


好 


使 得 处 理 器 可 以 由 单独 的 一 章 而 不 是 两 章 来 呈现 ， 并 且 有 关 处 理 器 的 内 容 通过 删除 得 到 了 加 强 。 
在 第 3 版 中 单独 作为 一 章 的 有 关 性 能 的 内 容 ， 在 本 版 中 被 合并 到 了 第 1 章 。 

第 三 个 目的 是 提升 本 书 的 教学 方法 。 现 在 第 1 章 变 得 更 加 充实 ， 内 容 包 括 性 能 、 集 成 电路 、 
功 耗 ， 为 全 书 丙 是 了 基础 。 第 2、3 童 原本 以 演进 的 风格 进行 编写 ， 以 “ 单 细 胞 ”的 体系 结构 开 
始 ， 并 以 第 3 章 最 后 的 完整 MIPS 体系 结构 结束 。 这 种 松散 的 写作 风格 不 能 很 好 地 适应 现代 读者 
的 需要 。 本 版 将 所 有 的 整 型 指令 集 归并 到 第 2 章 ， 使 第 3 章 成 为 多 数 读者 可 以 选读 的 内 容 ， 并 且 
每 节 各 上 自 独立 ， 读 者 不 再 需要 阅读 之 前 的 所 有 节 。 因 此 ， 与 之 前 版 本 相 比 ， 现 在 第 2 章 是 一 个 更 
好 的 参考 资料 。 由 于 多 周期 实现 会 分 散 读者 的 注意 力 ， 而 处 理 器 现在 变 为 单独 的 一 章 ， 所 以 第 4 
章 的 编写 效果 更 好 。 第 5 章 新 增 了 构建 cache 控制 器 的 部 分 ， 此 外 ，CD 中 新 增 的 部 分 包含 了 该 
cache 的 Yenilog 代码 。 

第 3 版 配 有 CD， 使 得 书 的 页 数 减 少 ， 从 而 降低 了 书 的 价格 。 而 且 ， 有 兴趣 的 读者 还 可 更 深 
入 地 阅读 其 中 的 参考 资料 。 但 是 ， 我 们 积极 减少 页 数 的 同时 ， 读 者 却 要 过 于 频繁 地 在 书 和 CD 之 
间 来 回 使 用 。 本 版 中 将 不 会 出 现 这 个 问题 。 现 在 ，CD 中 有 每 章 的 拓展 阅读 ， 以 及 四 个 章节 的 更 
加 深入 的 材料 。 男 外 ， 所 有 练习 都 集中 在 书 中 ， 在 书 和 CD 之 间 进 行 交替 使 用 的 次 数 应 该 比较 
少 了 。 

对 于 那些 想 知道 为 什么 我 们 在 本 书 中 包含 了 CD 的 读者 ， 答 案 也 很 简单 ， CD 中 包含 了 那些 
我 们 觉得 无 论 读者 在 哪里 都 应 该 很 容易 并 且 即 刻 可 以 获得 的 内 容 。 如 果 你 对 更 进一步 的 内 容 感 
兴趣 ， 或 者 你 想 复习 一 个 VHDL 教程 (举例 来 说 ) ， 它 就 在 CD 中 ， 可 供 你 使 用 。CD 的 另 一 个 特 
凡是 ,能 极 大 地 加 强 你 对 材料 的 学 习 ， 它 包含 了 一 个 搜索 引擎 ， 使 你 可 以 搜索 书 中 或 CD 本 身 的 
文本 中 的 任何 字符 串 。 如 果 你 正在 寻找 书 的 索引 中 没有 包含 的 内 容 ， 你 可 以 简单 地 输入 你 要 搜 
索 的 文本 和 想 要 显示 在 搜索 结果 中 的 页 码 。 这 是 一 个 非常 有 用 的 特点 ， 我 们 希望 当 你 阅读 和 回 
顾 本 书 的 时 候 ， 可 以 经 常 使 用 。 

这 是 一 个 快速 发 展 的 领域 ， 并 且 对 于 本 书 新 的 版 本 也 是 同样 的 情况 ， 编 写 新 版 的 一 个 重要 
的 目的 就 是 更 新 技术 内 容 。AMD Opteron X4 模型 2356 (代码 为 Barcejona) 用 来 运行 书 中 第 1、 
4、5 和 7 章 的 示例 。 第 1、6 章 增 加 了 SPEC 中 新 的 功 耗 测试 程序 的 结果 。 第 2 意 增 加 了 ARM 体 
系 结构 的 部 分 ，ARM 是 当前 世界 上 最 流行 的 32 位 指令 集体 系 结构 。 第 5 章 新 增 了 一 部 分 内 容 介 
绍 虚拟 机 ， 其 重要 性 再 次 呈现 出 来 。 第 5 章 对 Opteron X4 多 核 的 cache 性 能 测量 进行 了 详细 的 描 
述 ， 以 及 对 其 竞争 对 手 mtel Nehalem (将 在 本 版 书 出 版 之 后 进行 发 布 ) 的 性 能 测量 进行 了 一 些 细 
描述。 第 6 章 第 一 次 描述 了 Flash 存储 器 ， 同 时 也 对 Sun 公司 的 嘻 越 的 小 型 服务 器 进行 了 描述 ， 
它 包 含 由 8 个 核 、16 个 DIMM 和 8 个 碟 片 组 成 的 1Ubit 的 磁盘 。 第 6 章 还 描述 了 关于 长 期 磁盘 失 
效 的 最 新 研究 结果 。 第 7 章 涵盖 了 有 关 并 行 的 大 量 话题 ， 包 括 多 线程 、SIMD、 问 量 、GPU 、 性 能 
模型 、 测 试 程序 和 多 处 理 器 网 络 ， 并 描述 了 Opteron X4 额外 的 3 个 多 核 处 理 器 : Intel Xeon 模型 
e5345 (Clovertown) 、IBM Cell 模型 0S20 和 Sun 微 系 统 T2 模型 5120 ( Niagara 2 ) 。 

最 后 的 目的 是 ， 在 这 个 网 络 时 代 ， 尽 量 使 习题 对 教师 有 用 ， 因为 布置 家 庭 作 业 一 直 是 学 习 资 
料 的 一 个 重要 方式 。 然 而 ， 几 乎 是 在 本 书 出 现 的 同时 ， 习题 答案 就 会 立刻 被 贴 出 。 对 此 ， 我 们 采 
取 两 种 方式 。 首 先 ， 专 家 扎 稿 人 一 直 在 努力 为 书 中 的 每 一 章 编 写 全 新 的 习题 。 第 二 ， 大 多 数 习 题 
部 有 一 个 含有 多 种 可 供 苦 换 的 量化 参数 的 表格 ， 这 些 参数 用 于 回答 该 问题 ， 这 种 方式 为 练习 题 
提供 了 量化 描述 支持 。 对 指导 教师 如 何 选择 布置 练习 而 言 ， 绝对 的 数量 加 上 灵活 性 使 得 学 生 很 
难 在 线 找 到 与 习题 对 应 的 答案 。 指 导 教 师 还 可 以 按照 目 己 的 意愿 改变 这 些 量化 参数 ， 有 效 阻止 
那些 依赖 互联 网 寻找 固定 不 变 的 习题 集 答案 的 学 生 。 我 们 认为 这 种 新 方法 是 对 本 书 有 价值 的 补 
充 ， 无 论 你 是 学 生还 是 教师 ， 请 让 我 们 知道 对 于 你 来 说 它 的 效果 如 何 。 

我 们 保留 了 以 往 版 本 中 有 用 的 书本 元 素 。 为 使 本 书 更 好 地 作为 参考 书 ， 我 们 还 在 新 术语 第 





IX 


一 次 出 现 的 页 的 页 脚 放置 了 定义 。 书 中 标题 为 “理解 程序 性 能 ”部 分 的 内 容 用 于 帮助 读者 理解 
他 们 的 程序 性 能 ， 以 及 如 何 进 行 提高 ， 就 像 书 中 “硬件 /软件 接口 ”部 分 会 帮助 读者 理解 有 关 接 
口 的 权衡 问题 一 样 。 “宏观 图 ”部 分 仍然 存在 ， 以 使 读者 看 到 整个 “森林 ”而 不 是 每 一 棵 
“ 树 ”。“ 小 测验 ”部 分 通过 在 每 章 的 最 后 提供 管 案 ， 帮助 读者 在 第 一 时 间 加 强 他 们 对 内 容 的 理 
解 。 本 版 同样 提供 了 MIPS 参考 数据 ， 这 是 从 IBM System/360 得 到 的 灵感 ， 并 对 可 去 掉 的 数据 进 
行 了 更 新 ， 在 编写 MIPS 汇编 语言 程序 时 ， 应 该 是 一 个 方便 的 参考 。 


教学 支持 
我 们 已 收集 了 大 量 材料 供 教师 授课 使 用 ， 包 括 题解 、 各 章 测 验 、 本 书 的 图 表 、 讲 义 注解 和 幻 


灯 片 等 ， 都 可 从 出 版 商 处 获得 。 如 需 更 多 信息 ， 请 访问 以 下 网 址 : 
textbooks. elsevier. com/9780123744937 


结语 

从 下 面 的 致谢 中 ， 你 会 知道 我 们 花费 了 大 量 精力 去 修改 本 书 的 错误 。 由 于 本 书 印 刷 了 多 次 ， 
因此 我 们 有 机 会 做 更 多 的 校正 。 如 果 你 发 现 有 遗留 的 错误 ， 请 通过 电子 邮件 与 出 版 社 联 系 : 
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计算 机 概要 与 技术 





我 们 可 以 完成 更 多 重要 的 操作 而 不 必 考 虑 其 完成 的 过 程 ， 这 促进 了 文明 的 进步 。 
一 一 Alfred North Whitehead, 《An Introduction to Mathematics》，1911 


1.1 引言 
欢迎 阅读 本 书 ! 非常 高 兴 有 这 样 的 机 会 和 大 家 一 起 共享 令 人 兴奋 的 计算 机 系统 世界 。 这 并 
不 是 一 个 桔 燥 无 味 的 领域 ， 其 进步 不 像 冰河 期 那 般 漫长 ， 新 思想 也 不 会 因为 受到 忽视 而 萎缩 。 事 
实 上 ， 计 算 机 是 一 种 令 人 难以 置信 的 、 激 动人 心 的 信息 技术 工业 的 产物 ， 其 相关 产品 几乎 占 全 美 
国民 生产 总 值 的 10% ， 并 按摩 尔 定律 一 直 持续 增长 。 在 过 去 的 二 十 多 年 里 ， 出 现 了 许多 导致 计 
算 产 业 革 命 的 新 型 计算 机 ， 但 是 这 些 计算 机 很 快 就 被 更 好 的 计算 机 所 取代 。 
电子 计算 自 20 世纪 40 年 代 后 期 出 现 以 来 ， 其 创新 性 的 竞争 导致 了 史无前例 的 进步 。 如 果 运 
输 业 的 发 展 速度 也 像 计 算 器 工业 那样 快 ， 那 么 今天 我 们 从 纽约 到 伦敦 的 旅行 时 间 只 需 1 秒 钟 ， 花 
费 只 有 几 美 分 。 想 象 一 下 ， 这 样 的 进步 将 如 何 改变 社会 一 一 生活 在 南 太平 洋 的 塔 希 提 岛 ， 而 工作 
在 旧金山 ， 傍 晚 去 莫斯科 吃 夜 宵 一 一 你 能 够 想象 得 出 这 种 进步 意味 着 什么 。 
计算 机 已 导致 人 类 文明 的 第 三 次 革命 一 一 信息 革命 ， 它 是 沿 着 农业 革命 、 工 业 革命 的 发 展 
方向 产生 的 。 信 息 革命 导致 了 人 类 能 力 和 智慧 的 成 倍增 长 ， 自 然而 深刻 地 影响 着 我 们 的 日 常生 
活 ， 甚 至 改变 了 寻求 新 知识 的 方法 。 现 在 有 一 种 科学 探索 的 新 方式 ， 即 计算 科学 家 联合 理论 和 实 
验 科学 家 ， 共 同 探索 天 文学 、 生 物 学 、 化 学 和 物理 学 的 前 沿 问题 。 
计算 机 革命 一 直 在 向 前 推进 。 每 当 计算 成 本 降低 10 倍 ， 计 算 机 的 发 展 机 遇 就 会 增加 10 倍 。 
原本 经 济 上 不 可 行 的 应 用 ， 突 然 变 得 可 行 了 。 例 如 ， 下 述 的 各 项 应 用 在 过 去 曾经 是 “计算 机 科 
学 幻想 ”: 
。 车 载 计算 机 在 20 世纪 80 年 代 初 微 处 理 器 的 性 能 和 价格 得 到 极 大 改进 之 前 ， 用 计算 机 
来 控制 汽车 几乎 是 天 方 夜 谭 。 而 今天 ， 用 计算 机 控制 汽车 发 动机 是 极为 普遍 的 应 用 ， 车 
载 计算 机 不 仅 改进 了 燃油 效率 ,减轻 了 污染 ， 还 通过 防 险 刹车 和 安全 气 吉 实现 了 撞车 
保护 。 
。 手机 谁 曾 想到 计算 机 系统 的 发 展会 产生 移动 电话 ， 让 人 们 几乎 在 全 世界 的 任何 地 方 都 
可 以 自由 通信 。 
。 人 类 基因 项 目 目前 用 于 绘图 和 分 析 人 类 基因 序列 的 计算 机 设备 价值 达 几 亿美 元 ， 这 在 
10 多 年 前 就 更 加 昂贵 了 。 然 而 ， 随 着 计算 机 设备 价格 的 持续 下 降 ， 有 望 在 未 来 实现 按 个 
人 基因 序列 来 治疗 疾病 。 
”万 维 网 在 编写 本 书 第 1 版 时 ,万 维 网 尚 不 存在 ， 而 现在 万 维 网 已 经 改变 了 整个 社会 。 
在 许多 地 方 ， 它 已 取代 了 传统 的 图 书馆 。 
。 搜索 引 掌 ” 随 着 万 维 网 规模 的 扩大 和 价值 的 与 日 俱 增 ， 如 何 快速 精确 地 找到 所 需 信息 变 
得 越 来 越 重要 。 今 天 ， 如 果 没 有 搜索 引擎 ， 许 多 人 在 万 维 网 中 将 寸步 难 行 。 
显而易见 ， 计 算 机 技术 的 进步 几乎 影响 着 社会 的 每 一 个 方面 。 硬 件 的 进步 使 得 程序 员 可 以 
损 写 出 各 种 优秀 的 应 用 软件 ， 进 而 证 实 计算 机 几乎 是 无 所 不 能 的 。 今 天 的 科学 幻想 在 未 来 就 会 
成 为 现实 ， 诸 如 虚拟 世界 、 实 用 级 别 的 语音 识别 和 个 性 化 保健 等 技术 正在 向 我 们 走 来 。 
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1.1.1 计算 应 用 的 分 类 及 其 特性 


计算 机 的 应 用 领域 十 分 广阔 ， 从 智能 家 电 到 手机 ， 再 到 最 大 型 的 超级 计算 机 。 这 些 不 同 的 应 
用 有 着 不 同 的 设计 需求 ， 并 以 不 同 的 方式 通过 硬件 实现 。 概 括 地 说 ， 计 算 机 主要 包括 以 下 三 类 
应 用 : 

桌面 计算 机 ”也 许 是 最 为 人 所 知 的 应 用 方式 ， 其 典型 代表 为 个 人 计算 机 ， 本 书 的 读者 几乎 都 
在 大 量 使 用 。 桌 面 计算 机 强调 对 单 用 户 提供 良好 的 性 能 ， 价 格 低廉 ,通常 运行 第 三 方 软件 。 尽 管 
此 类 应 用 的 出 现 只 有 短 短 的 30 多 年 ， 但 是 已 经 带 来 大 量 新 的 计算 技术 革新 。 

服务 器 是 过 去 被 称 为 大 型 机 、 小 型 机 或 超级 计算 机 的 现代 形式 ， 通常 借助 网 络 访问 。 服 务 
器 面向 大 型 用 户 ， 可 以 执行 单个 复杂 应 用 (科学 的 或 工程 的 ) ， 也 可 以 处 理 大 量 的 简单 作业 ， 如 
大 型 Web 服务 器 。 这 些 应 用 通常 基于 其 他 来 源 〈 例 如 数据 库 或 仿真 软件 ) 的 软件 ， 并 且 往 往 为 
了 特别 的 需要 而 加 以 修改 或 定制 。 服 务 器 的 制造 技术 和 桌面 计算 机 差不多 ， 但 能 够 提供 更 强 的 
计算 或 LO 能 力 。 服 务 器 的 设计 通常 强调 可 靠 性 ， 因 为 它 的 当 机 开 销 要 比 单 用 户 的 桌面 计算 机 大 
得 多 。 

服务 器 的 功能 和 价格 有 很 大 的 伸缩 范围 。 低 端 服务 器 可 能 比 桌面 计算 机 稍微 贵 些 ， 不 带 显 
示 句 和 键盘 的 大 约 需 要 一 干 美元 ， 一 般 用 于 文档 存储 、 小 型 商务 应 用 或 者 简单 的 Web 服务 ( 见 
6. 10 节 ) 。 高 端 服务 器 称 为 超级 计算 机 ”， 一 般 由 成 百 上 千 台 处 理 器 组 成 ， 内 存 为 terabytes 级 ， 
外 存 为 petabyte 级 ， 价 格 从 几 百 万 至 几 亿美 元 不 等 。 它 们 主要 用 于 高 端 科学 和 工程 计算 ， 如 天 
气 预报 、 石 油 勘探 和 蛋白质 结构 计算 等 大 规模 问题 。 

详 如 eBay 和 Google 等 公司 所 使 用 的 互联 网 数据 中 心 8 也 包含 数 以 生计 的 处 理 器 、terabyte 级 
的 内 存 和 petabyte 级 的 外 存 ， 尽 管 它们 一 般 不 称 为 超级 计算 机 。 此 类 数据 中 心 一 般 由 大 量 计算 机 
集群 ( 见 第 7 章 ) 构成 。 

嵌入 式 计算 机 是 数量 最 多 的 一 类 ， 应 用 和 性 能 范围 十 分 广泛 。 包 括 在 汽车 、 手 机 、 电 视 
中 的 微 处 理 器 以 及 用 来 控制 飞机 和 货船 的 处 理 器 网 络 。 插 人 式 计算 系统 的 设计 目标 是 运行 单 
一 应 用 程序 或 者 一 组 相关 的 应 用 程序 ， 并 且 通 常 和 硬件 集成 在 一 起 以 单一 系统 的 方式 一 并 交 
付 用 户 。 因 此 ， 尽管 嵌入 式 计算 机 的 数量 庞大 ， 还 是 有 很 多 用 户 从 来 没有 意识 到 他 们 正在 使 
用 计算 机 。 

图 1-1 显示 ,最近 几 年 中 移动 电话 对 杠 入 式 计算 机 的 需求 增长 要 比 桌 面 计算 机 快 得 多 。 应 该 注 
意 的 是 ， 除 此 之 外 ， 租 入 式 计算 机 还 大 量 应 用 于 数字 电视 、 机 顶 盒 、 汽 车 、 数 码 相 机 、 音 乐 播放 
策 、 馈 频 游戏 机 等 消费 品 ， 这 些 应 用 更 加 拉 大 了 嵌入 式 计算 机 和 桌面 计算 机 之 间 数 量 需 求 的 差距 。 

面向 单一 应 用 需求 的 宜人 式 应 用 通常 被 严格 限制 其 成 本 或 功 耗 。 以 音乐 播放 器 为 例 ， 处 理 
名 只 需 信 量 快速 地 执行 有 限 的 功能 ， 除 此 以 外 降低 成 本 和 功 耗 是 最 大 的 目标 。 除 了 低 成 本 的 要 
求 之 外 ， 艇 人 式 计算 机 对 故障 非常 敏感 ， 因 为 故障 可 能 会 让 使 用 者 心烦 意 乱 (例如 新 电视 机 无 
法 正常 收看 节目 ) ， 也 可 能 会 导致 安全 事故 〈 例 如 飞机 失事 ) 。 在 面向 消费 者 的 能 入 式 应 用 中 ， 
如 数字 家 电 ， 可 靠 性 是 通过 设计 的 简单 性 获得 的 一 一 其 重点 在 于 尽 可 能 地 保证 一 项 功能 的 正 党 


加 ”桌面 计算 机 (desktop computer) . 用 于 个 人 使 用 的 计算 机 ， 通 常 包含 图 形 显示 器 、 键盘 和 鼠标 等 。 

服务 器 〈server) : 用 于 为 多 用 户 运行 大 型 程序 的 计算 机 通 芝 由 多 个 用 户 并 行使 用 ， 并 且 一 般 通 过 网 络 访问 。 
超级 计算 机 (supercomputer) : 具有 最 高 性 能 和 最 贵 成 本 的 一 类 计算 机 ， 一 般配 置 为 服务 器 ， 和 需要 花费 数 百 万 美元 。 
terabyte〈 一 般 简 写作 TB) : 原始 定义 为 1099 511 627 776 (24) 字 节 ,但 有 些 通信 和 辅助 存储 系统 将 其 重新 定 
义 为 1 000 000 000 000 (102 ) 字 节 。 

Petabyte; 1000TB 或 1024TB， 视 具体 情况 而 定 。 

数据 中 心 (datacenter) : 可 满足 大 量 服 务 器 用 电 、 散热 和 网 络 需 求 的 房间 或 建筑 物 。 

撒 人 式 计 算 机 ( embedded computer) : 嵌入 到 其 他 设备 中 的 计算 机 ， 一 般 运行 预定 义 的 一 个 或 者 一 组 应 用 程序 。 


HEH O00 
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运转 。 而 在 大 型 嵌 人 式 系统 中 ， 采 用 了 多 种 宛 余 技 术 〈 见 6.9 节 ) 。 尽 管 本 书 将 重点 放 在 通用 计 
算 机 上 ， 但 是 大 多 数 概念 可 直接 或 者 稍微 修改 之 后 用 于 嵌入 式 计算 机 。 


图 1-1 1997 ~2007 年 之 间 每 年 生产 的 移动 
电话 、PC 和 电视 的 数量 (电视 数量 
从 2004 年 开始 统计 ) 

在 2006 年 ， 交付 了 超过 十 亿 部 新 的 移动 电话 。 在 
1997 年 ， 移 动 电话 的 销量 仅 为 PC 机 的 1.4 倍 ， 但 是 
在 2007 年 达到 了 4.5 倍 。 在 2004 年 ， 使 用 中 的 电视 
约 为 20 亿 台 ， 移 动 电话 约 为 18 亿 部 ，PC 机 约 为 8 
亿 台 。 而 在 2004 年 世界 人 口 约 为 64 亿 ， 相 当 于 每 8 
个 人 就 有 1 台 PC 机 、2.2 部 移动 电话 和 2.5 台电 视 
机 。 在 2006 年 对 美国 家 庭 的 一 项 调查 中 发 现 ， 平 均 
每 个 家 庭 拥 有 12 台 家 电 ， 包 括 3 台电 视 机 、2 台 PC 
机 以 及 其 他 电器 ， 如 游戏 终端 、MP3 播放 器 和 移动 
电话 等 。 




















精 解 : 本 书 中 的 精 解 是 正文 中 的 一 个 小 节 ， 主 要 用 来 对 读者 可 能 感 兴趣 的 内 容 做 深入 介绍 。 对 此 部 分 
不 感 兴趣 的 读者 可 以 直接 跳 过 ， 因 为 它 并 不 影响 后 续 内 容 的 学 习 。 

许多 财 入 式 处 理 器 使 用 处 理 器 核 。 处 理 器 核 是 利用 硬件 描述 语言 Verilog 或 VHDL ( 见 第 4 章 ) 描述 的 
处 理 融 版 本 ， 它 使 得 设计 者 能 够 把 其 他 专用 硬件 与 之 集成 起 来 制造 在 一 块 芯片 上 。 


1.1.2 你 能 从 本 书 学 到 什么 


成 功 的 程序 员 总 是 关心 其 程序 的 性 能 ， 因 为 让 用 户 快速 得 到 结果 对 软件 成 功 与 否 至 关 重 要 ， 
在 20 世纪 六 七 十 年 代 ， 限 制 计算 机 性 能 的 主要 因素 是 内 存 容量 。 因 而 那 时 候 程序 员 的 信条 是 尽 
量 少 所 用 闪存 空间 ， 以 加 速 程序 的 运行 速度 。 近 十 多 年 来 ， 计 算 机 和 内 存 的 设计 技术 有 了 长 足 进 
步 。 除 了 插入 式 系 统 以 外 ， 大 多 数 用 户 对 少 占 内 存 容量 的 需求 大 大 减轻 了 。 
瑰 在 ， 关 心性 能 的 程序 员 需 要 十 分 明确 ，20 世纪 60 年 代 的 简单 存储 模型 已 经 不 复 存在 ， 现 
代 计 算 机 的 特征 是 处 理 器 的 并 行 性 和 内 存 的 层次 性 。 因 此 ， 程序 员 为 了 创建 高 性 能 的 编译 器 、 操 
作 系 统 、 数 据 库 以 至 应 用 程序 ， 必 须 增加 对 计算 机 组 成 的 认 知 。 
我 们 很 荣幸 有 机 会 为 你 解释 这 些 知识 ， 阐 述 机 箱 覆 盖 之 下 的 计算 机 内 部 软 硬 件 是 如 何 工 作 
的 。 当 你 读 完 本 书 之 后 ， 我 们 相信 ， 你 将 能 够 理解 下 面 的 问题 
。 用 (4 或 Java 等 高 级 语言 编写 的 程序 如 何 翻 译 成 硬件 之 间 的 语言 ? 硬件 如 何 执行 程序 ? 领 
会 这 些 概念 是 理解 软 硬 件 两 者 如 何 影响 程序 性 能 的 基础 。 
。 什么 是 软 硬 件 之 间 的 接口 ， 以 及 软件 如 何 指导 硬件 完成 其 功能 ? 这 些 概念 对 于 许多 软件 
的 编写 是 十 分 重要 的 。 
哪 怪 因素 决定 了 程序 的 性 能 ?程序 员 如 何 才 能 改进 其 程序 性 能 ? 从 本 书 中 我 们 将 知道 ， 程 序 
性 能 取决 于 原始 程序 、 将 该 程序 转换 为 计算 机 语言 的 软件 以 及 执行 该 程序 的 硬件 的 有 效 性 。 
。 什么 技术 可 供 硬 件 设计 者 用 于 改进 性 能 ? 本 书 将 介绍 现代 计算 机 设计 的 基本 概念 。 有 兴趣 的 
读者 可 深入 阅读 我 们 的 万 一 本 进 阶 教材 《Computer Arehitecture ，A Quantitative Approach》。 
。 为 什么 串 行 处 理 近来 发 展 为 并 行 处 理 ? 这 种 发 展 带 来 的 结果 是 什么 ? 本 书 给 出 了 解释 ， 并 
介绍 了 当今 支持 并 行 处 理 的 硬件 机 制 ， 全 面 评 述 了 新 一 代 的 多 核 微 处 理 器 9 ( 见 第 7 音 )。 


名 “多核 微 处 理 器 《multicore microprocessor) : 在 一 块 集成 电路 上 包含 多 个 处 理 器 〈“* 核 ”") 的 微 处 理 器 。 
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如 果 无 法 理解 这 些 问 题 ， 那 么 就 无 从 改进 你 的 程序 在 现代 计算 机 上 的 性 能 ， 也 无 法 评价 各 种 计 
算 机 在 解决 特定 问题 时 的 优 劣 。 

本 书 第 1 章 的 目的 是 为 其 余 各 章 葛 定 良 好 的 基础 。 它 介绍 了 各 种 基本 概念 和 定义 ， 指 出 如 何 
正确 地 剖析 软 硬 件 ， 以 及 如 何 评价 性 能 与 功 耗 等 。 它 还 介绍 了 集成 电路 (为 计算 机 革命 提供 动 
力 的 技术 ) ， 并 在 最 后 解释 了 向 多 核 转移 的 原因 。 

在 本 章 和 后 面 几 章 里 ， 读 者 会 看 到 许多 新 的 术语 。 但 是 不 用 担心 ， 在 描述 现代 计算 机 时 ， 确 
实 会 有 很 多 专用 术语 ， 它 们 使 我 们 能 够 精确 描述 计算 机 的 功能 或 性 能 。 另 外 ,计算 机 设计 人 员 
(包括 本 书 作 者 ) 喜欢 用 首 字 母 缩 略 词 ”>， 一 旦 熟悉 了 就 很 容易 理解 。 为 了 帮助 读者 理解 和 记忆 
这 些 专 用 术语 ， 在 术语 第 一 次 出 现时 ， 我 们 会 在 页 底 给 出 明确 的 定义 ,这样 你 很 快 会 对 这 些 定义 
器 悉 起 来 。 

为 了 加 强 对 软件 和 硬件 对 于 程序 运行 性 能 影响 的 理解 ,我们 在 全 书 中 特别 插入 了 “理解 程 
序 性 能 ”小 节 ， 来 对 程序 性 能 的 理解 加 以 概括 。 下 面 就 是 第 一 个 : 

_ 理解 程序 性 能 

一 个 程序 的 性 能 取决 于 以 下 各 因素 的 组 合 : 程序 所 用 算法 的 有 效 性 ， 用 来 建立 程序 并 将 其 
翻译 成 机 器 指令 的 软件 系统 ， 计 算 机 执行 机 器 指令 (可 能 包括 LO 操作 ) 的 有 效 性 。 下 表 总 结 
了 硬件 和 软件 是 如 何 影响 性 能 的 。 


硬件 或 软件 部 件 如 何 影响 性 能 | 何 处 介绍 


算法 决定 源 代码 的 行 数 和 执行 VO 操作 的 数量 参见 其 他 书 


编程 语言 、 编 译 程序 和 体系 结构 决定 每 行 源 代码 对 应 机 器 指令 的 数量 第 2、3 章 
处 理 嚣 和 存储 器 系统 决定 指令 执行 的 速度 快慢 第 4、5、7 章 


LO 系统 (硬件 和 操作 系统 ) 决定 VO 操作 执行 的 速度 快慢 第 6 章 





小 测验 


小 测验 ”的 目的 是 帮助 读者 评估 自己 是 否 掌握 了 所 学 的 概念 。 在 这 些小 测验 中 ， 有 些 只 有 简单 的 答 
案 ， 有 些 则 是 为 了 组 内 讨论 。 有 些 问题 的 答案 可 在 章 尾 找到 。 所 有 小 测验 只 在 节 尾 出 现 ， 如 果 你 确信 自己 
对 该 部 分 内 容 完全 理解 ， 则 可 以 跳 过 去 。 

1) 工 工 节 指 出 ， 每 年 嵌 人 式 处 理 器 的 售 出 数量 远 远 超过 桌面 处 理 器 的 数量 。 根 据 自 己 的 经 验 ， 你 是 支持 还 
是 反对 这 种 看 法 ? 列举 你 家 中 使 用 的 族人 式 处 理 器 ， 它 与 你 家 中 桌面 处 理 器 的 数量 相 比 如 何 ? 

如 前 所 述 ， 软 件 和 硬件 都 会 影响 程序 的 性 能 。 请 恩 考 下 述 的 哪个 例子 属于 性 能 瓶颈 ， 

。 所 选 算法 

。 编程 语言 或 编译 程序 

。 操作 系统 

。 处 理 器 

。 LO 系统 和 设备 


1.2 程序 概念 入 门 
在 巴黎 ， 我 对 当地 人 讲法 语 ， 他 们 只 是 脸 着 我 看 ; 我 从 来 没 能 让 这 些 白 病理 解 他 们 自己 的 


O 


2 


a 


wk 


话 
一 一 马 元 . 吐 温 , 《The Innocents Abroad》( 《异国 奇遇 》) ，1869 
一 个 典型 的 应 用 程序 ， 如 字 处 理 程序 或 大 型 数据 库 ， 可 以 由 数 百 万 行 代码 构成 ， 并 依靠 软件 


© 首 字母 缩 略 词 (acronym) : 由 一 串 单词 中 每 个 单词 的 首 字母 相连 构成 的 单词 。 
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库 来 实现 异常 复杂 的 功能 。 众 所 周知 ， 计 算 机 中 的 硬件 只 能 执行 极为 简单 的 低级 指令 。 从 复杂 
应 用 程序 到 简单 的 指令 需要 经 过 几 个 软件 层次 ,才能 将 复杂 的 高 层次 操作 逐步 解释 或 翻译 成 简 
单 的 计算 机 指令 。 

图 1-2 给 出 了 这 些 软件 的 层次 结构 ， 外 层 是 应 用 软件 ， 中 心 是 硬件 ， 系 统 软件 ”位 于 两 者 之 
间 。 系 统 软件 有 很 多 种 ， 其 中 有 两 种 对 于 现代 计算 机 系统 来 说 是 必需 的 : 操作 系统 和 编译 程序 。 
操作 系统 ”是 用 户 程序 和 硬件 之 间 的 接口 ， 为 用 户 提供 各 种 服务 和 监控 功能 。 操 作 系统 最 为 重要 


的 作用 是 : 
。 处 理 基 本 的 输入 和 输出 操作 
。 分 配 外 存 和 内 存 


。 为 多 个 应 用 程序 提供 共享 计算 机 资源 的 服务 
当前 我 们 使 用 的 操作 系统 主要 有 Linux 、MacOS 和 Windows 等 。 


点 用 软 你 

系统 软 欠 图 1-2 简化 的 硬件 和 软件 层次 图 ， 

将 硬件 作为 同心 圆 的 中 心 ， 
应 用 程序 软件 作为 最 外 层 

硬件 在 复杂 的 应 用 中 ， 通 常 存在 多 层 应 用 软 


件 层 。 例 如 ， 一 个 数据 库 系统 可 运行 于 系 
统 软件 之 上 ， 而 驻 留 在 该 系统 软件 上 的 某 
应 用 又 肥 过 来 运行 在 该 数据 库 之 上 。 


编译 程序 完成 另外 一 项 重要 功能 : 把 用 高 级 语言 (如 C、C ++ 、jJava 或 Visual Basic 等 ) 
编写 的 程序 翻译 成 硬件 能 执行 的 指令 。 这 个 翻译 过 程 是 相当 复杂 的 ， 这 里 仅 作 简 要 介绍 ,第 2 章 
和 附录 B 将 作 深入 介绍 。 


从 高 级 语言 到 硬件 语言 


谈 到 电子 硬件 ， 首 先 需 要 谈 到 电信 号 的 发 送 。 对 于 计算 机 来 说 ， 最 简单 的 信号 是 “ 通 ” 和 
“ 断 ”。 因 此 ， 计 算 机 只 用 2 个 字母 来 表示 。 正 如 英语 26 个 字母 写 多 少 不 受 限制 一样 ， 计 算 机 的 
2 个 字母 写 多少 也 不 受 限 制 。 代 表 这 些 两 个 字母 的 符号 是 0 和 1， 我 们 通常 认为 计算 机 语言 就 是 
一 进 制 数 。 每 个 字母 就 是 二 进 制 元 数字 中 的 一 位 *。 计 算 机 服从 于 我 们 的 命令 ， 即 计算 机 术语 中 
的 指令 。 指 令 是 能 被 计算 机 识别 并 执行 的 位 串 ， 可 以 被 视 为 数字 。 例 如 位 串 1000110010100000 
告诉 计算 机 将 2 个 数 相 加 。 第 2 章 将 解释 为 什么 数字 元 既 表示 指令 又 表示 数据 。 

第 一 代 程 序 员 是 直接 使 用 二 进 制 数 与 计算 机 通信 的 ， 这 是 一 项 非常 乏味 的 工作 。 所 以 他 们 
很 快 发 明了 助 记 符 ， 以 符合 人 类 的 思维 方式 。 最 初 助 记 符 是 手工 翻译 成 二 进 制 的 ， 其 过 程 显然 过 
于 烦琐 。 随 后 设计 人 员 开 发 了 一 种 称 为 汇编 程序 2 的 软件 ， 可 以 将 助 记 符 形式 的 指令 自动 翻译 成 
对 应 的 二 进 制 。 例 如 ， 程 序 员 写 下 


add A, B 


© 系统 软件 systems software) :提供 常用 服务 的 软件 ， 包 括 操作 系统 、 编 译 程序 、 加 载 程序 和 汇编 程序 等 ， 
操作 系统 (operating system) ;为 了 使 程序 更 好 地 在 计算 机 上 运行 而 管理 计算 机 资源 的 监控 程序 。 
编译 程序 ( compiler) : 将 高 级 语言 翻译 为 计算 机 所 能 识别 的 机 器 语言 的 程序 。 
位 〈binary digit 或 bit) : 基 2 数字 中 的 0 或 1， 它 是 信息 的 基本 组 成 元 素 。 
指令 (instruction) : 计算 机 硬件 所 能 理解 并 服从 的 命令 。 
汇编 程序 (assembler) : 将 指令 由 助 记 符 形 式 翻译 成 二 进 制 形式 的 程序 。 


HO@O@OVO 
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汇编 程序 会 将 该 符号 翻译 成 


10001310010100000 


该 指令 告诉 计算 机 将 两 个 数 A 和 B 相 加 。 这 种 符号 语言 的 名 称 今天 还 在 用 ， 即 汇编 语言 。 而 机 


器 可 以 理解 的 二 进 制 语 言 ， 是 机 器 语言 。 


虽然 这 是 一 个 巨大 的 进步 ， 汇 编 语言 仍然 与 科学 家 用 来 模拟 液体 流动 或 会 计 师 用 来 结算 账 


目 所 使 用 的 符号 相去 其 还。 

汇编 语言 需要 程序 员 写 出 计算 机 执行 的 
每 条 指令 ， 要求 程 序 员 像 计算 机 一 样 思考 。 

认识 到 程序 编程 需要 更 强大 的 高 级 语言 
是 计算 机 早期 的 一 个 重大 突破 。 高 级 编程 语 
言及 其 编译 程序 大 大 地 提高 了 软件 的 生产 
率 。 图 1-3 表示 了 这 些 程序 和 编程 语言 之 间 
的 关系 。 

编 详 程序 使 得 程序 员 可 以 写 出 高 级 语言 
表达 式 : 


A++B 
编译 程序 将 其 编译 为 如 下 的 汇编 语言 语句 : 
add A, B 


然后 ， 汇 编程 序 将 此 语句 翻译 为 二 进 制 
元 指令 ， 告 诉 计算 机 将 这 2 个 数 A 和 B 相 加 。 

使 用 高 级 编程 语言 有 以 下 几 个 好 处 。 第 
一 ， 可 以 使 程序 员 用 更 自然 的 语言 来 思考 ， 
用 英文 和 代数 符号 来 表示 ， 形 成 的 程序 看 起 
来 更 像 文 字 而 不 是 密码 表 ( 见 图 1-3)。 而 
且 ， 它们 可 按 用 途 进 行 设计 。 例 如 ，Fortran 
是 为 科学 计算 设计 的 ，Cobol 是 为 商业 数据 
操作 设计 的 ，Lisp 是 为 符号 操作 设计 的 ， 等 
等 。 还 有 一 些 特定 领域 的 语言 ， 只 为 少数 专 
业 人 群 设计 ， 如 流体 仿真 的 研究 人 员 等 。 

第 二 ， 高 级 语言 提高 了 程序 员 的 生产 
率 。 编 程 语言 使 用 较 少 行 数 即 可 表示 出 设计 
用 意 。 简 明 性 是 高 级 语言 相对 汇编 语言 最 为 
明显 的 优势 。 


高 级 语言 程序 Swaps(LinEe wily Lnb i 
(C 语 言 》 {int temp; 
temp = v[k]; 
Yl II 
Vv[k+1] = temp; 
} 
编译 程序 
汇编 语言 程序 swap: 
《用 于 MIPS ) i 


1S: ( $2) 
] W RIG 注定 二 名 
Sw Bits QS 
Sw 省 外人 必 四 记 》 
jE 3 
汇编 程序 


二 进 制 机 器 ”00000000101000010000000000011000 
语言 程序 0000000000011000000110000010000: 
(用 于 MIPS) 10001100011000100000000000000000 
1000110011110010000000000000010C 
1010110011110010000000000000000C 
10101100011000100000000000000100 
00000011111000000000000000001000 


图 1-3 C 程序 编译 为 汇编 程序 ， 
冉 汇编 为 二 进 制 机 器 语言 
尽管 将 高 级 语言 翻译 成 二 进 制 的 机 器 语言 在 上 图 仅 需 要 两 
步 ， 一 些 编译 器 将 “中 间 人 ” 砍 掉 ， 直 接 产 生 二 进 制 的 机 器 
语言 。 这 些 语言 和 本 图 中 列举 的 程序 将 在 第 2 章 详细 检测 。 


第 三 ， 采 用 高 级 语言 编写 程序 提高 了 程序 相对 于 计算 机 的 独立 性 ， 因 为 编译 程序 和 汇编 程 
序 能 够 把 高 级 语言 程序 翻译 成 任何 计算 机 的 二 进 制 元 指令 。 
高 级 编程 语言 的 这 些 好 处 ， 使 其 直到 今天 仍 被 广泛 应 用 。 





DOOD 


汇编 语言 ( assembly language) : 以 助 记 符 形式 表示 的 机 器 指令 。 
机 和 锋 语 言 ( machine language ) : 以 二 进 制 元 形式 表示 的 机 器 指令 。 
. 高 级 编程 语言 (high- level programming languape ) ， 


诸如 C、C ++ 、Java、Visual Basic 等 可 移植 的 语言 ， 由 一 些 单 


赣 和 代数 符号 组 成 ， 可 以 由 编译 器 转 换 为 汇编 语言 。 
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1.3 硬件 概念 入 门 

我 们 已 经 在 上 节 通 过 程序 揭示 了 计算 机 软件 ， 在 本 节 中 我 们 将 打开 机 箱 盖 学 习 其 中 的 硬件 。 
任何 一 台 计 算 机 的 基础 硬件 都 要 完成 相同 的 基本 功能 : 输 和 数据、 输出 数据 、 处 理 数据 和 存储 数 
据 。 本 书 的 主题 就 是 描述 这 些 功 能 是 怎样 完成 的 ， 随 后 各 章 将 分 别 讨论 这 四 项 任务 。 

本 书 在 遇 到 重要 知识 点 时 ， 都 会 用 “重点 ”标题 加 以 强调 ， 希 望 读者 对 其 重点 记忆 。 全 书 
大 致 有 十 多 个 重要 知识 点 ， 这 里 是 第 一 个 ， 即 计算 机 是 由 完成 输入 、 输 出 、 处 理 和 存储 数据 任务 
的 五 个 部 件 构成 的 。 
重点 | 

组 成 计算 机 的 五 个 典型 部 件 是 输入 、 输 出 、 存 储 器 、 运 算 器 和 控制 器 ， 其 中 最 后 两 个 部 件 通 
常 合 称 为 处 理 器 。 图 1-4 表示 了 一 人 台 计 算 机 的 标准 组 成 。 该 组 成 与 硬件 技术 无 关 ， 你 总 能 够 把 任 
何 计算 机 (无论 是 现在 的 还 是 过 去 的 ) 中 的 任何 部 件 归 于 这 五 种 之 一 。 为 了 加 深 读者 对 这 一 重 
点 的 印象 ， 我 们 将 在 每 章 开始 都 给 出 此 图 。 





图 1-4 组 成 计算 机 的 五 个 典型 部 件 
处 理 器 从 存储 器 中 得 到 指令 和 数据 ， 输 入 部 件 将 数据 写 人 存储 器 ， 输 出 部 件 从 内 存 中 读 出 数据 ， 控 
制 器 向 运算 器 、 存 储 器 、 输 入 和 输出 部 件 发 出 命令 信和 号 。 


图 1-5 给 出 了 一 台 计 算 机 的 照片 ， 它 带 有 键盘 、 无 线 鼠 标 和 显示 器 。 该 照片 展示 了 组 成 计 
算 机 的 两 个 关键 部 件 : 输入 设备 ?”， 如 键盘 和 鼠标 ;输出 设备 >， 如 显示 器 。 输 入 是 为 计算 机 
提供 数据 ,输出 则 是 将 计算 结果 反馈 给 用 户 。 有 些 设备 例如 网 络 和 硬盘 ， 既 有 输入 ， 又 有 
输出 。 


© 输入 设备 (input device) ， 为 计算 机 提供 信息 的 装置 ， 如 键盘 和 鼠标 。 
局 输出 设备 (output device) : 输出 计算 结果 给 用 户 或 其 他 计算 机 的 装置 。 
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图 1-5 桌面 计算 机 

液晶 显示 器 (liquid crystal display，LCD ) 
是 主要 的 输出 设备 ， 键 盘 和 鼠标 是 主要 的 输 
人 人 设备， 右边 是 一 条 以 太 网 电缆 ， 用 于 将 笔 
记 本 电脑 连接 到 网 络 上 。 笔 记 本 电脑 包括 处 
理 器 、 内 存 和 额外 的 VO 设备 。 该 系统 由 
Machook Pro 15 英寸 笔记 本 电脑 连接 到 一 台 
外 部 显示 器 而 构成 。 





1.3.1 训 析 局 标 


在 参加 一 次 计算 机 会 议 的 演讲 中 ， 我 产生 了 和 鼠标 的 概念 。 那 个 演讲 者 的 演讲 非常 乏味 ， 于 是 
我 开始 做 白 上 日 梦 ， 荫 生 了 这 个 想法 。 





Doug Engelbart 

通过 计 和 并 机 显示 器 ， 我 将 飞机 降落 在 航空 母 舰 的 甲板 上 ， 观 察 到 一 个 原子 打 到 势 阱 中 ， 乘 着 
火 葡 以 接近 光 的 速度 飞翔 ， 同 时 我 了 解 到 计算 机 最 深层 的 工作 原理 。 
Ivan Sutherland ， 计 算 机 图 形 学 之 “ 父 ”， 科 学 美国 人 ，1984 

虽然 许多 用 户 认为 使 用 鼠标 是 理所当然 的 事情 ,但 将 鼠标 作为 指点 设备 的 概念 是 由 Doug 
bngelbart 于 1967 年 最 先 提出 的 。 当 时 ， 他 演示 了 他 的 样机 原型 。 而 所 有 工作 站 (包括 Macintosh 
和 Windows 操作 系统 ) 都 使 用 鼠标 作为 指点 设备 的 灵感 则 是 始 于 1973 年 ， 由 Alto 提出 。 到 了 20 
世纪 90 年 代 ， 所 有 桌面 计算 机 都 使 用 了 鼠标 ， 它 成 为 了 基于 图 形 显示 器 的 用 户 接口 标准 。 

最 初 的 鼠标 是 电动 机 械 式 的 ， 用 一 个 大 球 在 平面 上 滚动 ， 产 生 坐 标 *、y 两 个 计数 器 增 量 ， 
每 个 增 量 显示 鼠标 移动 了 多 远 。 

现在 ,电动 机 械 式 鼠标 大 多 被 光电 有 鼠标 取代 了 。 光 电 和 鼠标 实际 上 是 一 个 小 型 的 光 处 理 器 ， 使 
用 LED 提供 光源 ， 带 有 一 -个 极 小 的 黑白 照相 机 和 一 个 简单 的 光 处 理 器 。 当 LED 照 亮 鼠标 底下 的 
平面 时 ， 照 相机 以 每 秒 1500 次 的 采样 频率 将 拍摄 的 照片 连续 地 输送 给 光 处 理 器 。 光 处 理 器 通过 
对 比 黑 片 ， 就 可 判定 鼠标 移动 的 方向 和 距离 。 电 动机 械 式 鼠 标 被 光电 鼠标 所 取代 ， 说 明了 一 个 普 
明 的 现象 ; 由 于 电子 学 可 降低 成 本 并 提高 可 靠 性 ， 因 此 电子 技术 能 够 取代 老式 的 机 电 技术 。 在 稍 
后 我 们 还 将 看 到 另 一 个 例子 : 闪存。 


1. 3.2 显示 器 


最 吸引 人 的 VO 设备 应 该 是 图 形 显示 器 了 。 所 有 的 笔记 本 电脑 、 手 持 计算 机 、 计 算 器 、 手 机 
和 几乎 所 有 的 桌面 计算 机 现在 都 用 LCDS 来 获得 轻巧 、 低 功 耗 的 显示 效果 。LCD 并 非 光 源 ， 而 是 








© 次 站 ，( qd orstal display) ， 这 是 一 种 显示 技术 ， 将 流体 聚合 物 的 薄 层 带电 或 者 不 带电 ， 来 传输 或 者 阻 赴 
光线 的 传输 。 
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控制 光 的 传输 。 典 型 的 LCD 内 含 棒状 液态 分 子 轩 ， 在 不 施加 任何 电压 的 情况 下 ， 液 晶 处 于 初始 
状态 ， 并 将 人 射 光 的 方向 扭转 90 度 ， 让 背光 源 的 人 射 光 能 够 通过 整个 结构 ， 在 显示 屏 上 呈现 白 
色 ; 而 当 施 加 电压 时 ， 光 线 不 再 弯曲 ， 显 示 屏 呈现 为 黑色 。 今 天 ， 大 多 数 LCD 显示 器 采用 一 种 
动态 矩阵 显示 ” (active matrix display) 技术 ， 其 每 个 像素 (pixel) 都 有 一 个 三 极 管 精确 地 控制 
电流 ， 使 图 像 更 清晰 。 在 彩色 有 源 和 矩阵 中 ， 还 有 一 个 红 - 绿 - 蓝屏 决定 三 种 颜色 分 量 的 强度 ， 每 
个 点 需要 有 三 个 三 极 管 开关 。 

图 像 是 由 像素 矩阵 组 成 的 ， 可 由 位 图 (bit map) 来 表示 。 根 据 屏 幕 的 大 小 和 分 辨 率 ， 显 示 
矩阵 的 大 小 范围 为 从 640 x480 像素 到 2560 x 1600 像素 (2008 年 ) 。 彩 色 显 示 器 上 的 每 色 可 用 8 
位 表示 ， 每 像素 用 24 位 ， 可 表示 几 百 万 种 不 同 的 颜色 。 

支持 图 像 的 计算 机 硬件 主要 是 光栅 刷新 缓冲 (raster refresh buffer) ， 或 帧 缓冲 (frame buff- 
er) ， 用 于 保存 位 图 。 屏 幕 上 的 图 像 实 际 上 保存 在 帧 缓冲 中 ， 每 个 像素 的 位 元 模式 以 指定 的 刷新 
速率 逐个 读 出 并 发 送 到 显示 器 上 。 图 1-6 给 出 了 一 个 简化 的 帧 缓冲 ， 其 每 个 像素 只 有 4 位 。 

帧 缓冲 


光栅 扫描 CRT 显 示 





1-6 左边 帧 缓冲 中 每 个 坐标 点 决定 了 右边 光栅 扫描 CRT 显示 中 对 应 点 的 色 度 
像素 (Xo ，Yo) 的 位 元 模式 为 0011， 相 对 于 像素 (XI ，Y, ) 的 位 元 模式 1101 来 说 更 亮 一 些 。 


位 图 的 目的 是 忠实 地 将 图 像 在 屏幕 上 复 现 出 来 ， 其 难点 在 于 人 眼 能 精确 发 现 屏幕 上 任何 细 


1.3.3 打开 机 箱 


如 有 果 打 开 计 算 机 机 箱 ， 我 们 会 看 到 吸引 人 的 薄 塑 料 底板 ， 上 上面 有 几 十 个 灰色 或 黑色 的 长 方 
块 。 图 1-7 显示 了 图 1-5 中 笔记 本 电脑 的 内 部 ， 图 中 上 部 是 主板 9， 前 面 是 两 个 磁盘 驱动 器 ( 左 
边 征 硬盘 驱动 器 ， 右 边 是 DVD 驱动 器 ) ， 中 间 的 空间 用 于 存放 笔记 本 电脑 的 电池 。 

主板 上 那些 小 的 长 方块 是 集成 电路 9 (integrated cireuit) ， 俗 称 芯片 (chip)。 主 板 由 三 部 分 
组 成 : 连接 前 面 提 到 的 各 种 IO 设备 的 电路 、 内 存 和 处 理 器 。 

内 存 是 程序 运行 时 的 存储 空间 ， 它 同 时 也 用 于 保存 程序 运行 时 所 使 用 的 数据 。 图 1-8 给 出 
了 和 内存 的 照片 ， 其 中 每 个 内 存 由 8 片 集成 电路 构成 。 图 1-8 中 的 内 存 由 多 片 DRAM 芯片 组 成 ， 
第 用 来 承载 程序 的 指令 和 数据 。 与 串 行 访问 内 存 (如 磁带 ) 不 同 的 是 ， 无 论 数据 存储 在 什么 位 
置 ，DRAM 访问 内 存 所 需 的 时 间 基 本 相同 。 


动态 矩阵 显示 (active matrix display) :一 种 液晶 显示 技术 ， 使 用 唱 体 管控 制 单个 像素 上 光线 的 传输 。 

像素 (pixel) : 图 像 元 素 的 最 小 单元 ， 屏幕 是 由 成 千 上 万 的 像素 组 成 的 矩阵 而 形成 。 

主板 (motherboard ) : 包含 一 组 集成 电路 芯片 的 塑料 板 ， 包 括 处 理 闫 、cache、 内 存 以 及 连接 0 设备 (如 网 络 、 
便 盘 等 ) 的 接口 。 

集成 电路 (integrated cireuit) : 也 叫 芯 片 ， 一 种 将 几 十 个 至 几 百 万 个 晶体 管 连接 起 来 的 设备 。 

内 存 (memory) : 程序 运行 时 的 存储 空间 ， 同时 还 存储 程序 运行 时 所 需 的 数据 。 

DRAM (dynamic random access memory) : 动态 随机 访问 内 存 ， 可 随机 访问 任何 地 址 的 内 存 。 
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硬 基 ”处 理 器 带 散热 器 DIMM 电池 插 醒 ”主板 。 带 散 热 器 ”DVD 
驱动 器 的 风扇 内 存 揪 模 的 风扇 ”驱动 器 


图 1-7 图 1-5 中 笔记 本 电脑 的 内 部 
左下 方 具 有 白色 标签 的 闪 亮 盒子 是 . -个 100 CB SATA 硬盘 驱动 器 ， 右 下 方 那个 办 亮 的 金属 盒子 则 是 DVD 驱 
动 器 。 它 们 两 个 之 间 的 洞 是 笔记 本 电脑 电池 的 位 置 。 电 池 洞 上 的 那个 小 洞 则 是 存储 器 DIMM。 图 1-8 是 DIMMs 
的 一 个 特写 图 ， 它 会 从 笔记 本 电脑 的 底层 被 插入 。 在 电池 洞 和 DVD 驱动 器 的 上 方 是 一 个 印 制 电路 板 (PC 
板 ) ， 也 被 称 为 主板 ， 它 包含 了 计算 机 的 大 多 数 电 子 器 件 。 本 图 上 半 部 分 的 两 个 闪 亮 的 圈 是 两 个 具有 覆 膜 的 风 
矶 。 处 理 髓 就 是 左边 风 刷 的 下 面 的 那个 大 的 突起 的 矩形。 本 图 版 权 属 于 OtherWorldComputing. com。 
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1-8 打开 笔记 本 电脑 底部 所 看 到 的 内 存 
主 存在 左边 一 块 或 多 块 小 板子 上 ， 右 边 是 存放 电池 的 空间 。DRAM 安装 在 这 些小 板子 (叫做 DIMM ，dual 
inline memory module ， 双 列 直 插 内 存 模块 ) 上 并 插入 连接 器 。 本 图 片 由 OtherWorldComputing. com 提供 。 
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处 理 器 是 主板 上 最 活 牙 的 部 分 。 它 严格 按照 程序 中 的 指令 运行 ， 将 数字 相 加 ， 测 斌 结果， 并 
按 结果 发 出 控制 信号 使 7YO 设备 作出 动作 。 处 理 器 上 面 有 风 面 和 散热 器 〈 见 图 1-7 的 左边 ) 。 有 
时 候 人 们 把 处 理 器 称 为 中 央 处 理 器 ” ， 即 CPU。 

为 进一步 理解 便 件 ， 图 1-9 展示 了 一 于 微 处 理 龙 的 内 部 细节 。 处 理 器 从 逻辑 上 包括 两 个 主要 
部 件 : 数据 通路 和 控制 器 ， 分 别 相当 于 处 理 器 的 肌肉 和 大 脑 。 数 据 通路 ?负责 完成 算术 运算 ， 控 
制 器 ”负责 指导 数据 通路 、 存 储 器 和 IO 设备 按照 程序 的 指令 正确 执行 。 第 4 章 将 对 数据 通路 和 
控制 器 进一步 详细 说 明 。 


128-bit FPU 


读 皮 /| 数据 

存储 | 缓存 |; 
到 指 / Cd 
解码 /| LI 指令 
转移 | 缓存 


加 | | 加 


图 1-9 AMD Barcelona 微 处 理 器 内 部 
左边 是 AMD Barcelona 微 处 理 器 芯片 的 显微镜 照片 ， 右 边 是 该 处 理 器 包含 的 主要 模块 。 图 中 的 起 片 由 4 个 处 
理 融 构成， 或 称 四 核 (core) 处 理 器 。 而 图 1-7 中 笔记 本 电脑 的 每 个 芯片 由 2 个 核 构 成 ， 称 为 ntel Core 2 Duo。 


在 处 理 器 内 部 使 用 的 是 另外 一 种 存储 器 一 一 缓存 。 缓 存 是 一 种 小 而 快 的 存储 器 ， 一 般 作 为 
DRAM 的 缓冲 。cache 采用 的 是 另 一 种 存储 技术 ， 称 为 静态 随机 访问 存储 器 (SRAM)。， 其 速度 
更 快 而 且 不 那么 密集 ， 因 此 价格 更 贵 ( 见 第 5 章 ) 。 

谈 者 可 能 已 经 注意 到 ， 在 软件 和 硬件 的 描述 上 有 一 个 共同 点 : 越 是 深入 ， 展 示 的 信息 就 越 
多 ; 反 过 来 ， 将 低层 的 细节 隐藏 起 来 ， 就 可 以 在 高 层次 描述 上 采用 较 简洁 的 模型 。 使 用 “分 屋 ” 
或 “抽象 ” 的 方法 ， 是 设计 复杂 计算 机 系统 的 一 种 主要 技术 。 

最 重要 的 抽象 之 一 是 硬件 和 底层 软件 之 间 的 接口 。 鉴 于 其 重要 性 ， 该 抽象 被 命名 为 计算 机 
的 指令 集体 系 结构 ”“， 或 简称 体系 结构 (architecture) 。 计 算 机 体系 结构 包括 了 程序 员 正确 编写 一 
进 制 机 咒语 言 程 序 所 需 的 一 切 东 西 ， 如 指令 、T0 设备 ， 等 等 。 一 般 来 说 ， 操 作 系统 需要 封装 /0 
操作 、 存 储 器 分 配 和 其 他 低级 的 系统 功能 细节 ， 以 便 应 用 程序 员 无 需 在 这 些 细节 上 分 心 ， 提供 给 


















HT PHY. 链 路 3 











中 央 处 理 器 单元 〈central processor unit) : 也 被 称 为 处 理 器 ， 处 理 器 是 主板 上 最 活跃 的 部 分 。 它 严格 按 程 序 中 的 
指令 运行 ， 将 数字 相 加 ， 测 试 结果 ， 并 按 结果 发 出 控制 信号 使 WO 设备 动作 等 。 

数据 通路 ( datapath) ， 是 处 理 器 中 执行 算术 操作 的 部 分 。 

控制 器 (control) : 处 理 器 中 根据 程序 的 指令 ， 指 挥 数 据 通路 、 存 储 器 和 LO0 设备 的 部 分 。 

缓存 (cache memory) : 缓存 是 一 种 小 而 快 的 存储 器 ， 一 般 作 为 大 而 慢 的 存储 器 的 缓冲 。 

静态 随机 访问 存储 器 (static random access memory ) : 一 种 存储 器 的 集成 电路 ， 但 是 更 快 ， 比 DRAM 集成 度 低 。 
抽象 (abstraction) : 一 种 掩盖 底层 计算 机 系统 细节 的 模型 ， 为 了 方便 构建 复杂 的 系统 ， 和 暂时 (temporarily》 是 不 
可 大 的 。 

指令 集体 系 结构 (instruction set architecture) ; 也 叫 体系 结构 。 是 低层 次 软件 和 硬件 之 问 的 抽象 接口 ， 包 含 了 需 
妥 与 机 器 语 育 程 序 正确 运行 的 所 有 信息 ， 包 括 指令 、 寄 存 器 、 存 储 访问 和 LO 全 
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应 用 程序 员 的 基本 指令 集 和 操作 系统 接口 合 称 为 应 用 二 进 制 接口 ”(ABI) 。 

计算 机 体系 结构 可 以 让 计算 机 设计 者 独立 地 讨论 功能 ， 而 不 必 考 虑 具体 的 硬件 。 例 如 ， 我 们 
讨论 数字 时 钟 的 功能 (如 计时 、 显 示 时 间 、 设 置 闸 钟 ) 时 ， 可 以 不 涉及 时 钟 的 硬件 〈 如 石英 部 
体 、LED 显示 、 按 钮 ) 。 计 算 机 设计 者 将 体系 结构 与 体系 结构 的 实现 ”分 开 考 虑 也 是 沿 着 同样 的 
思路 : 人 硬件 的 实现 方式 必须 依照 体系 结构 的 抽象 。 这 些 概念 产生 了 男 一 个 重点 。 

无 论 硬件 还 是 软件 都 可 以 分 成 多 个 层次 ， 每 个 较 低 的 层次 把 细节 对 上 层 隐藏 起 来 。 硬 件 设 
计 者 和 软件 设计 者 都 用 这 种 抽象 原则 来 应 对 计算 机 体系 的 复杂 性 。 计 算 机 体系 结构 是 抽象 层次 
中 的 一 个 关键 接口 一 一 硬件 和 底层 软件 之 间 的 接口 。 这 一 抽象 接口 使 得 同一 软件 可 以 由 成 本 不 
同 、 性 能 也 不 同 的 实现 方法 来 完成 。 


1.3.4 数据 安全 


目前 为 止 ， 我 们 已 经 理解 了 如 何 输入 数据 ， 如 何 使 用 这 些 数 据 进行 计算 ， 以 及 如 何 显示 结 
采 。 然 而 ，-- 且 关 掉 电源 ， 所 有 数据 就 丢失 了 ， 因 为 计算 机 中 的 内 存 是 易 失 性 的 8。 与 之 不 同 的 
是 ， 如 果 关 掉 DVD 游戏 机 的 电源 ， 所 记录 的 内 容 将 不 
会 丢失 ， 因 为 它 采 用 的 是 非 易 失 性 存储 器 。 

为 了 区 分 易 失 性 存储 器 与 非 易 失 性 存储 器 ， 我 们 
将 前 者 称 为 主 存储 器 ” (main memory 或 primary memo- 
ry)， 将 后 者 称 为 二 级 存储 器 ” (secondary memory ) 。 
DRAM 自 1975 年 起 在 主 存储 器 中 占 主 导 地 位 ， 而 磁 
盘 自 1965 年 起 在 二 级 存储 器 中 占 主导 地 位 。 在 所 有 
服务 镶 和 工作 站 中 的 非 易 失 性 存储 器 都 是 磁盘 。 闪 存 。 
也 是 一 种 非 易 失 性 存储 器 ， 主 要 用 于 手机 ， 目 前 在 音 
乐 播 放 器 甚至 笔记 本 电脑 中 正在 逐步 取代 磁盘 。 

如 图 1-10 所 示 ， 磁盘 通常 由 多 个 盘 片 组 成 ， 盘 片 
以 每 分 钟 5400 ~ 15 000 转 的 速度 绕 轴 高 速 旋转 。 人 金属 
盘 片 两 面 涂 有 磁性 材料 ， 相 似 的 材料 用 在 录音 带 或 录 
影 析 上 。 为 了 读 写 硬 盘 上 的 信息 ， 一 个 装 有 小 线圈 的 
活动 臂 紧 靠 两 边 盘 面 ， 称 为 “ 读 写 头 ” (read- write | Ey 
head ) 。 整个 驱动 内 部 是 密封 的 ， 使 读 写 头 更 加 靠近 图 1-10 具有 10 张 盘 片 的 磁盘 及 其 读 写 头 
盘面 。 

便 盘 的 直径 通常 为 1 ~3.5 英寸 。 为 了 满足 新 产品 的 需要 ， 硬盘 直径 越 来 越 小 ， 工 作 站 、 服 
务 右 、 台 式 机 、 笔 记 本 电脑 、 掌上 电脑 以 及 数码 相机 等 新 产品 不 断 采 用 新 型 硬盘 。 一 般 来 说 ， 硬 





应 用 二 进 制 接口 (application binary interface) . 用 户 部 分 的 指令 加 上 应 用 程序 员 调 用 的 操作 系统 接 [] ， 定 义 了 一 
进 制 层 次 可 移植 的 计算 机 的 标准 。 

实现 〈implementation) : 遵循 体系 结构 抽象 的 硬件 。 

匈 失 性 内 存 (volatile memory) : 类 似 DRAM 的 内 存 ， 仅 在 加 电 时 保存 数据 。 

非 易 失 性 内 存 ( nonvolatile memory) . 在 掉 电 时 仍 可 保持 数据 的 内 存 用 于 存储 运行 间 的 程序 ， 例如 磁盘 。 
memory ) : 也 叫 主 要 存储 器 。 这 个 存储 器 被 用 来 保持 运行 中 的 程序 ， 在 现代 计算 机 中 一 般 由 
二 级 存储 器 (secondary memory) : 非 易 失 性 存储 器 ， 用 来 保存 两 次 运行 之 间 的 程序 和 数据 ; 在 现代 计算 机 中 ， 
一 般 由 磁盘 组 成 。 

磁盘 (magnetic disk) ; 也 叫 硬 盘 (hard disk ) , 是 使 用 磁 介 质 材料 构成 的 以 旋转 盘 片 为 基础 的 非 易 失 性 存储 设备 。 
内存 flash memory) : 一 种 非 易 失 性 半导体 内 存 ， 价格 和 速度 均 低 于 DRAM， 但 比 磁盘 要 快 。 
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盘 的 尺寸 越 大 性 能 越 高 ， 而 尺 才 越 小 单位 价格 越 低 ， 每 GB” 的 最 佳 成 本 不 同 。 大 多 数 的 硬盘 豫 
动 器 都 安装 在 计算 机 内 部 (如 图 1-7 所 示 ) ， 也 有 一 些 便 盘 驱动 器 通过 外 部 接 如 连接 (如 USB) 。 

由 于 伐 盘 采用 了 机 械 部 件 ， 因 而 其 访问 速度 远 远 低 于 DRAM,， 磁盘 为 5 ~20 毫秒 ， 而 DRAM 为 
50 ~70 纳 秒 ， 比 磁盘 快 约 100000 倍 。 但 是 ， 相 同 容量 的 磁盘 价格 要 比 DRANM 便宜 得 多 ， 因 为 磁盘 存储 
人 船 的 制造 成 本 低 于 集成 电路 的 制造 成 本 。 在 2008 年 ， 每 GB 的 磁盘 价格 比 DRAM 便宜 30 ~ 100 倍 。 

因此 ， 磁 盘 和 主 存 有 三 个 主要 差别 : 磁盘 是 非 易 失 性 的 ， 因 为 它 使 用 磁 介 质 ; 磁盘 的 访问 速 
度 慢 ， 因 为 它 是 机 械 装 置 ; 磁盘 每 GB 价格 相对 较 低 ， 因 为 它 容 量 很 大 ， 价 格 适当 。 

曾经 有 许多 人 试图 发 明 一 种 新 型 存储 技术 ， 价 格 比 DRAM 便宜 ， 而 速度 比 磁盘 快 , 但 是 大 
多 都 失败 了 。 那 些 挑战 者 从 来 没 能 在 正确 的 时 机 拿 出 产品 。 在 挑战 者 的 新 产品 发 布 时 ，DRAM 和 
磁盘 取得 了 更 大 的 进步 ， 而 且 成 本 相应 地 大 幅度 下 降 ， 导 致 挑战 者 的 产品 立即 变 得 过 时 。 目 前 闪 
存 是 这 一 技术 领域 的 一 个 重要 的 挑战 者 ， 它 属于 半导体 存储 器 ， 像 硬盘 一 样 是 非 易 失 性 的 ， 并 具 
有 与 其 相近 的 带宽 ， 而 时 延 比 硬盘 快 100 ~ 1000 倍 。 闪 存在 音乐 播放 器 、 数 码 相 机 中 的 应 用 已 经 
很 普遍 了 ， 因 为 它 体积 小 、 更 稳定 、 功 耗 低 ， 尽 管 在 2008 年 的 时 候 它 相 对 硬盘 每 GB 价格 贵 6 ~ 
10 倍 。 与 硬盘 和 DRAM 不 同 的 是 ， 闪 存 具 有 写 100 000 ~ 1 000 000 次 后 老化 损坏 的 弱点 。 因 此 ， 
文件 系统 必须 记录 写 操作 的 数目 ， 而 且 具 备 避 免 存 储 器 损坏 的 策略 ， 例 如 避免 移动 经 常 使 用 的 
数据 。 第 6 章 将 更 详细 地 介绍 闪存 。 

除了 硬盘 和 闪存 之 外 ， 目 前 还 有 几 种 正在 应 用 的 外 存 技术 ， 

。 光盘 〈 包 括 CD、DVD) 是 最 常见 的 可 移动 外 存 。 蓝 光 (BluRay Disk ，BD) 是 继 DVD 之 

后 的 下 一 代 光 盘 格 式 标准 。 

。 基于 内 仓 的 可 移动 存储 卡 ， 通 常 采 用 USB 接口 ， 用 于 文件 传输 。 

。 人 磁 市 ， 只 能 提供 慢 速 串 行 传输 ， 一 直 用 于 磁盘 备份 ， 现 在 常用 宛 余 磁盘 代 蔡 。 

光盘 的 工作 原理 与 磁盘 不 同 。CD 通过 在 光盘 表面 烧 制 小 坑 (直径 约 1 微米 ) 的 方法 来 记录 
数据 。 在 读 取 CD 时 ， 使 用 激光 照射 CD 表面 ， 通 过 检测 反射 光 来 判定 该 处 是 一 个 坑 还 是 平面 。 
DVD 采用 同样 的 技术 ， 只 不 过 激光 可 以 聚焦 多 层 ， 并 大 大 减 小 每 个 坑 的 面积 ， 从 而 具有 更 大 的 
和 容量。 蓝光 则 使 用 波长 更 短 的 激光 进一步 压缩 每 个 坑 的 面积 ， 从 而 增加 存储 的 容量 . 

个 人 计算 机 上 的 光盘 刻录 机 使 用 激光 烧 坑 ， 速 度 相对 较 慢 ， 刻录 过 程 需要 几 分 钟 (CD 全 
片 ) 至 几 十 分 钟 《DVD 全 片 )。 因 此 大 量 生 产 时 一 般 采 用 压制 技术 ， 每 片 的 成 本 只 有 几 美 分 。 

可 擦 写 的 CD 或 者 DVD 使 用 一 种 特殊 的 记录 表面 ， 这 个 表面 具有 结晶 层 、 反 射 材料 ， 所 形 
成 的 坑 不 像 一 次 性 的 CD 或 者 DVD 那样 形成 反射 。 为 了 据 写 CD 或 者 DVD， 其 表面 被 加 热 ， 然 后 
侵 慢 冷却 ， 使 用 一 种 退火 工艺 使 得 表面 的 记录 层 恢复 它 的 晶体 结构 ， 对 于 只 读 磁盘 -被 用 来 
发 布 软件 、 音 乐 、 电 影 一 一 其 磁盘 成 本 和 记录 成 本 都 低 很 多 。 


1.3.5 与 其 他 计算 机 通信 


我 们 已 经 介绍 了 如 何 输入 、 计 算 、 显 示 和 保存 数据 ， 但 对 于 今天 的 计算 机 来 说 ， 还 有 -项 不 可 
缺少 的 功能 ， 计算 机 网 络 。 如 图 1.4 所 示 ， 处 理 器 被 连接 到 存储 器 和 1/O 设备 。 通 过 网 络 ， 计 算 机 
可 以 写 其 他 的 计算 机 通信 ， 从 而 扩大 计算 能 力 。 当 今 网 络 已 经 十 分 普遍 ， 逐 步 成 为 了 计算 机 系统 的 
主 十 。 一 台新 型 计算 机 如 果 没 有 网 络 接口 将 是 十 分 可 笑 的 。 联 网 的 计算 机 具有 如 下 几 个 主要 优点 ， 

。 通信 : 在 计算 机 之 间 高 速 交换 信息 。 

”资源 共享 有 些 YO 设备 可 以 由 网 络 上 的 计算 机 共享 ， 不 必 每 台 计 算 机 都 配备 。 





中 6B (gigabyte); 一 般 是 1073 741 824 (2”) 字 节 ,尽管 一 些 通信 和 二 级 存储 系统 将 其 重新 定义 成 1 000 000 000 
(10 ) 字 节 。 相 似 的， 根据 上 下 文 ，megabyte 也 就 是 220 或 者 105 字 节 。 
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e 远 距 离 访问 : 用 户 可 以 不 必 在 计算 机 的 旁边 ， 而 是 在 很 远 的 地 方 使 用 计算 机 。 

根据 传输 速度 以 及 信息 传输 的 距离 ， 通 信 代 价 随 之 增长 ， 网 络 的 传输 距离 和 性 能 是 多 种 多 
样 的 ， 最 为 普遍 的 网 络 类 型 是 以 太 网 。 它 的 传输 距离 可 达到 1000 公里 ， 传 输 速 率 可 达到 10 Gb- 
ps。 近 距离 范围 之 内 通信 使 用 局 域 网 > (local area network ，LAN) ， 跨 州 、 跨 省 通信 和 则 用 广域网 
(wide area network ，WAN)。 广域网 可 支持 万 维 网 (World Wide Web)， 作 为 因特网 的 骨干 网 ， 以 
光纤 为 基础 并 向 通信 公司 租用 。 

在 过 去 的 25 年 间 ， 因 为 广泛 的 使 用 和 性 能 的 大 幅度 提升 ， 网 络 已 经 改变 了 计算 的 方式 。 在 20 
世纪 70 年 代 ， 个 人 很 难 接触 到 电子 邮件 ， 网 络 和 Web 还 不 存在 ， 物 理 上 的 邮件 介质 磁带 成 为 传输 
两 地 之 间 大 容量 数据 的 主要 载体 。 局 域 网 根本 不 存在 ， 几 个 少数 存在 的 广域网 限制 了 容量 和 访问 。 

随 着 网 络 技术 的 进步 ， 网 络 变 得 越 来 越 便 宜 ， 速 度 越 来 越 快 。 在 二 十 多 年 以 前 ， 第 一 个 标准 
局 域 网 的 最 大 带宽 为 10 Mbps， 支 持 数 十 台 计算 机 的 共享 工作 。 今 天 ， 局域网 技术 已 能 提供 从 
100 Mbps ~ 10 Gbps 的 市 宽 。 光 通信 技术 已 经 使 广域网 有 了 类 似 的 发 展 ， 从 几 百 Kbps 到 Gbps 的 
带宽 ， 支 持 几 百 台 到 几 百 万 台 计 算 机 与 全 球 网 络 互 连 。 网 络 规模 的 飞速 扩大 ， 伴 随 着 带宽 的 急剧 
增长 ， 使 得 网 络 技术 成 为 最 近 二 十 多 年 来 信息 革命 的 中 心 。 

最 近 十 年 来 ， 新 的 联网 创新 变革 了 计算 机 通信 的 方式 。 广 泛 使 用 的 无 线 技术 和 笔记 本 电脑 
相 结 合 ， 加 上 原本 用 来 生产 无 线 电 的 廉价 的 半导体 (CMOS) 技术 被 用 来 生产 存储 器 和 微 处 理 器 
使 得 价格 大 幅度 降低 。 当 前 无 线 通 信 技 术 ，IEEE 标准 802. 11 ， 支 持 从 1 Mbps 到 近 100 Mbps 的 传 
输 速率 。 无 线 技术 和 基于 线路 的 网 络 相 当 不 同 ， 因 为 所 有 的 用 户 在 最 近 的 区 域 里 共享 电波 。 

半导体 DRAM 和 磁盘 存储 有 很 大 差别 。 试 从 易 失 性 、 访 问 时 间 和 价格 三 方面 进行 比较 。 


1.3.6 处 理 器 和 存储 器 制造 技术 


处 理 器 和 存储 器 正在 以 难以 置信 的 速度 在 进步 ， 因 为 计算 机 设计 者 一 直 采 用 最 新 的 电子 技 
术 进 行 设计 ， 以 期 在 竞争 中 取得 优势 。 图 1-11 描述 了 不 断 进 步 的 各 种 新 型 技术 ,包括 其 出 现 的 
时 间 和 性 价 比 。1.7 节 探讨 了 1975 年 以 _ 轩 sz “计算 机 中 使 用 的 技术 “| ”相对 性 能 /单价 

















来 支持 计算 器 工业 发 展 的 技术 和 在 可 预 
见 的 未 来 技术 的 发 展 趋势 。 因 为 这 些 技 
术 确 定 了 计算 机 能 够 做 什么 ， 以 及 以 多 
快 的 速度 发 展 变化 。 我 们 相信 ， 所 有 计 
算 机 专业 人 员 应 该 熟悉 集成 电路 的 基础 





知识 图 1-11 随 着 时 间 发 展 和 技术 进步 ， 计 算 机 
A 技术 的 性 价 比 不 断 增 长 
晶体 管 “仅仅 是 一 种 受 电流 控制 的 开 资料 来 源 : Computer Museum ， Boston， 其 中 2005 年 的 数据 是 由 
关 。 集 成 电路 (IC) 是 由 成 千 上 万 个 唱 作者 进行 的 预测 。 见 光盘 中 的 1.10 节 。 


体 管 组 成 的 芯片 。 为 了 描述 这 些 晶 体 管 从 几 个 增长 到 成 千 上 万 的 情形 ， 形 容 词 “超大 规模 ”被 
添加 到 术语 中 ， 简 写 为 VLSI， 即 大 规模 集成 电路 ?。 
集成 度 的 增长 率 是 相当 稳定 的 。 图 1-12 表示 自 1977 年 以 来 DRAM 容量 的 发 展 情况 。 近 二 十 


局 域 网 (local area network ) : - -种 在 一 定 地 理 区 域 ， 例如 在 同一 栋 大 楼 内 使 用 的 传输 数据 的 网 络 。 
起 (wide area network ) : 一 种 可 以 区 域 能 扩展 到 一 片 大 陆 那 么 大 范围 的 网 络 。 

宝 管 〈《vacuum tube) : 一 种 电子 元 件 ， 是 晶体 管 的 前 身 ， 因 工作 的 电极 封装 在 5 ~ 10 厘米 长 的 真空 而 
得 名 ， 使 用 电子 束 传输 数据 。 和 
晶体 管 (transistor) : 一 种 由 电信 号 控制 的 简单 开关 。 

大 规模 集成 电路 ( very large- scale integrated circuit) : 由 数 十 万 到 数 百 万 晶体 管 组 成 的 电路 。 
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多 年 以 来 ， 每 隔 3 年 DRAM 的 容量 就 增长 到 4 倍 ， 累 积 增长 已 超过 16 000 倍 。 这 就 是 集成 电路 领 
域 中 著名 的 摩尔 定律 : 芯片 中 的 晶体 管 容量 每 隔 18 ~24 个 月 将 翻 一 倍 。 它 由 Intel 公司 创办 人 之 
一 - Gordon Moore 于 20 世纪 60 年 代 提 出 。 
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图 1-12 单 片 DRAM 容量 随时 间 的 增长 
纵 轴 单 位 为 Kb， 其 中 K 为 1024 (2”)。 在 近 二 十 多 年 中 ,平均 每 隔 三 年 DRAM 容量 扩大 至 4 倍 ， 即 每 年 增 
长 约 60% 。 在 最 近 几 年 中 ， 增 长 速度 有 所 下 降 ， 接 近 每 2 ~3 年 翻 一 番 的 水 平 。 


这 一 增长 速率 几乎 维持 了 40 年 ， 在 制造 技术 方面 需要 大 量 难以 置信 的 创新 才能 实现 。1.7 
节 将 讨论 如 何 制造 集成 电路 。 


1.4 性 能 


对 计算 机 的 性 能 评价 是 富有 挑战 性 的 。 现 代 软 件 系统 的 规模 及 其 复杂 性 ， 加 上 硬件 设计 者 
采用 大 量 先进 的 性 能 改进 方法 ， 使 性 能 评价 极为 困难 。 

在 不 同 的 计算 机 中 挑选 合适 的 产品 ， 人 性 能 是 极其 重要 的 一 个 因素 。 精 确 地 测量 和 比较 不 同 
计算 机 之 间 的 性 能 对 于 购买 者 和 设计 者 都 很 重要 。 销 售 计算 机 的 人 也 需要 知道 这 些 。 通 常 销售 
人 员 硕 望 你 看 到 他 们 的 计算 机 表现 最 好 的 一 面 ， 无 论 这 一 面 是否 能 准确 地 反映 购买 者 的 应 用 需 
求 。 因 此 ， 理 解 怎 样 才 能 更 合理 地 测量 性 能 以 及 测定 所 选择 的 计算 机 的 性 能 限制 相当 重要 。 

本 节 将 首先 介绍 性 能 评价 的 不 同方 法 ;然后 分 别 从 计算 机 用 户 和 设计 者 的 角度 描述 性 能 测 
量 的 度量 标准 ;最 后 还 要 分 析 这 些 度量 标准 之 间 有 什么 联系 ， 并 提出 经 典 的 处 理 器 性 能 方程 式 ， 
我 们 在 全 书 中 都 要 使 用 它 进行 性 能 分 析 。 


1.4.1 性 能 的 定义 


当 我 们 说 一 台 计 算 机 比 另 一 台 计 算 机 具有 更 好 的 性 能 时 ， 意 味 着 什么 ? 虽然 这 个 问题 看 起 
来 很 简单 ， 但 实际 上 却 内 藏 玄机 。 我 们 可 以 先 用 客机 问题 模拟 来 看 一 下 。 图 1-13 表示 若干 典型 
客机 的 型 号 、 载 客 量 、 航 程 、 航 速 等 参数 。 如 果 我 们 要 指出 表 中 哪个 客机 的 性 能 最 好 ， 那 么 我 们 
首先 要 对 性 能 进行 定义 。 如 果 考 虑 不 同 的 性 能 度量 ， 那 么 性 能 最 佳 的 客机 是 不 同 的 。 我 们 可 以 看 
到 ， 巡 航速 度 最 高 的 是 Concorde， 航 程 最 远 的 是 DC-8-50， 载 客 量 最 大 的 是 747 

, | AR 航程 这 航速 度 | 旅客 吞吐 率 






z z ( 英 且 | 英里 /小 时 | (旅客 数 x 这 航速 度 i 
375 430 | 60 | ?8750 | 
该 诈 0 | 0 | 4 | 60 | 28670 


图 1-13 若干 商用 飞机 的 载 客 量 、 航 程 和 航速 
最 后 一 列 展 示 的 是 飞机 运载 乘客 的 速度 ， 它 是 容量 乘 以 航行 速度 (忽略 有 距离、 起 飞 和 降落 次 数 ) ， 
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即使 假定 用 速度 来 定义 性 能 ， 这 里 仍然 有 两 种 可 能 的 定义 。 如 果 你 关心 点 对 点 的 到 达 时 间 ， 
那么 可 以 将 只 搭载 一 名 旅客 的 巡航 速度 最 快 的 客机 认为 是 性 能 最 好 ， 即 Concorde。 如 果 你 关心 的 
是 旅客 吞吐 率 ， 那 么 747 的 性 能 是 最 好 的 。 与 此 类 似 ， 我 们 可 以 用 若干 不 同 的 方法 来 定义 计算 机 
性 能 。 

如 果 你 在 两 台 不 同 的 桌面 计算 机 上 运行 同一 个 程序 ， 那 么 你 可 以 说 首先 完成 作业 的 那 台 计 
算 机 更 快 。 如 果 你 运行 的 是 一 个 数据 中 心 ， 它 有 好 几 台 服务 器 供 很 多 用 户 投放 作业 ， 那 你 应 该 
说 ， 在 一 天 之 内 完成 作业 最 多 的 那 台 计算 机 更 快 。 作 为 个 人 计算 机 的 用 户 ， 对 降低 响应 时 间 9 感 
兴趣 。 而 数据 中 心 感 兴趣 的 常常 是 香 吐 率 S>。 因 此 ， 在 很 多 情形 下 ， 和 关注 吞吐 率 的 服务 器 相 
比 ， 我 们 需要 对 艇 人 式 以 及 台式 计算 机 采用 不 同 的 应 用 程序 作为 测试 基准 和 不 同 的 性 能 度量 
标准 。 
EE 忆 ”吞吐 率 和 响应 时 间 

下 面 两 种 改进 计算 机 系统 的 方式 ， 能 否 增加 其 吞吐 率 或 减少 其 响应 时 间 ? 

1. 将 计算 机 中 的 处 理 器 更 换 为 更 高 速 的 型 号 。 

2. 增加 多 个 处 理 器 来 分 别处 理 独 立 的 任务 ， 如 搜索 万 维 网 。 
答案 

一 般 来 说 ， 降 低 响应 时 间 几 平 都 可 以 增加 吞吐 率 。 因 此 ， 方式 1 同时 改进 了 响应 时 间 和 乔 
吐 率 。 

方式 2 不 会 使 任务 完成 的 更 快 ， 只 会 增加 其 吞吐 率 。 但 是 ， 当 需要 处 理 更 多 的 任务 时 ， 系 统 
可 能 需要 令 后 续 请 求 排队 。 在 这 种 情况 下 ， 随 着 吞吐 率 的 增加 ， 可 同时 改进 响应 时 间 ， 因 为 这 缩 
小 了 排队 等 待 时 间 。 所 以 ， 在 实际 的 计算 机 系统 中 ， 响 应 时 间 和 吞吐 率 往往 相互 影响 。 

在 讨论 计算 机 性 能 时 ， 本 书 前 儿童 将 主要 考虑 响应 时 间 方 面 。 为 了 使 性 能 最 大 化 ,我 们 希望 
任务 的 响应 时 间或 执行 时 间 最 小 化 。 对 于 某 个 计算 机 X， 我 们 可 以 表达 为 ， 

性 能 = 1 执行 时 间 ， 
如 果 有 两 台 计 算 机 X 和 T, X 比 了 性 能 更 好 ， 则 
性 能 > 性 能 ， 
1/ 执 行 时 间 、 >1/ 执 行 时 间 、 
执行 时 间 y > 执行 时 间 、 

也 就 是 说 站 的 执行 时 间 比 X 长 。 

在 讨论 计算 机 设计 时 ， 经 常 要 定量 地 比较 两 合 不 同 计算 机 的 性 能 。 我 们 将 使 用 “X 是 立 的 aa 
售 快 ”的 表态 方式 ， 即 : 

性 能 /性 能 , =n 

相对 性 能 

如 有 计算 机 A 运行 一 个 程序 只 需要 10 秒 ， 而 计算 机 B 运行 同样 的 程序 需要 15 秒 ， 那 么 计算 
机 A 比 计算 机 B 快 多 少 ? 
答案 | 

我 们 知道 , A 是 B 的 nn 倍 快 ， 则 

性 能 A/ 性 能 B= 执行 时 间 B/ 执 行 时 间 A =n 

故 性 能 比 为 15/10=1.5 


因 ”响应 时 间 (response time) : 也 叫 执行 时 间 (execution time) ， 计 算 机 完成 某 任 务 所 需 的 总 时 间 ， 包括 硬盘 访问 、 
内 存 访问 、LV0 活动 、 操 作 系 统 开销 和 CPU 执行 时 间 等 。 
加 吞吐 率 (throughput) ， 也 叫 带宽 (bandwidth) ， 性 能 的 另 一 种 度量 参数 ， 表示 单位 时 间 内 完成 的 任务 数量 。 
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因此 A 是 B 的 1.5 倍 快 。 
在 以 上 的 例子 中 ， 我 们 可 以 说 ， 计 算 机 B 比 计算 机 A 慢 1.5 倍 ， 因 为 
性 能 ,/ 性 能 ,=1.5 
意味 着 
性 能 ,/1.5 = 性能。 
简单 地 说 ， 当 我 们 试图 将 计算 机 的 比较 结果 量化 时 ， 我 们 通常 使 用 术语 “ 比 什么 快 ”。 因 为 
性 能 和 执行 时 间 是 个 倒数 关系 ， 提 高 性 能 就 需要 减少 执行 时 间 。 为 了 避免 对 术语 “增加 ”和 
“降低 ”潜在 的 误解 ， 当 我 们 想 说 “改善 性 能 ”和 “改善 执行 时 间 ” 的 时 候 ， 我 们 通常 说 “ 增 
加 性 能 ”或 者 “降低 执行 时 间 ”。 


1.4.< 性 能 的 测量 


如 果 计 算 机 的 性 能 用 时 间 来 度量 ， 那 么 完成 同样 的 计算 任务 ， 需 要 时 间 最 少 的 计算 机 是 最 
快 的 。 程 序 的 执行 时 间 一 般 以 秒 为 单位 。 然 而 ， 时 间 可 以 用 不 同 的 方法 来 表示 。 对 时 间 最 直接 的 
定义 是 墙 上 时 钟 时 间 (wall cjock time)， 也 叫 响 应 时 间 (response time)、 消 逝 时 间 ( elapsed 
time) 等 。 这 些 术语 均 表 示 完 成 任务 所 需 的 总 时 间 ， 包括 了 硬盘 访问 、 内 存 访问 、1/O 操作 和 操 
作 系 统 开 销 等 一 切 时 间 。 

多 用 户 经 常 共享 同一 计算 机 ， 一 个 处 理 器 需要 同时 运行 几 个 程序 。 在 这 种 情况 下 ， 系 统 可 能 
更 侧重 于 优化 吞吐 率 ， 而 不 是 最 小 化 一 个 程序 的 响应 时 间 。 因 此 ， 我 们 往往 要 把 运行 我 们 自己 的 
任务 的 时 间 与 一 般 的 响应 时 间 区 别 开 来 。 我 们 可 以 使 用 CPU 执行 时 间 9?， 简 称 CPU 时 间 ， 它 只 
表示 在 CPU 上 花费 的 时 间 ， 而 不 包括 等 待 Y0 或 运行 其 他 程序 的 时 间 。( 需 要 注意 的 是 ， 用 户 所 
感受 到 的 是 程序 的 响应 时 间 ， 而 不 是 CPU 时 间 。) CPU 时 间 还 可 进一步 分 为 用 于 用 户 程序 的 时 间 
和 操作 系统 为 用 户 服务 花 去 的 CPU 时 间 。 前 者 称 为 用 户 CPU 时 间 98 ， 后 者 称 为 系统 CPU 时 间 e 
要 精确 区 分 这 两 种 CPU 时 间 是 困难 的 ， 因 为 通常 难以 分 清 哪 些 操作 系统 的 活动 是 属于 哪个 用 户 
程序 的 ， 而 且 不 同 操作 系统 的 功能 也 千差万别 。 

为 了 一 致 性 ， 我们 保持 基于 响应 时 间 和 基于 CPU 执行 时 间 的 性 能 差异 。 我 们 使 用 术语 “ 系 
统 性 能 ”( system performance) 表示 空 载 系 统 的 响应 时 间 ， 并 用 术语 “CPU 性 能 ” (CPU perform- 
ance) 表示 用 户 CPU 时 间 。 本 章 我 们 概括 介绍 了 计算 机 性 能 ， 既 适用 于 响应 时 间 的 测量 ， 也 适 
用 于 CPU 时 间 的 测量 ， 但 本 章 的 重点 将 放 在 CPU 性 能 上 。 

个 同 的 应 用 关注 计算 机 系统 的 不 同方 面 。 许 多 应 用 ， 特别 是 那些 运行 在 服务 器 上 的 应 用 ， 主 
要 关注 IO 性能， 所 以 此 类 应 用 既 依 赖 硬 件 又 依赖 软件 ， 对 墙 上 时 钟 时 间 最 感 兴趣 。 而 在 其 他 一 
些 应 用 中 ， 用 户 可 能 对 吞吐 率 、 哆 应 时 间或 两 者 的 复杂 组 合 更 为 关注 《例如 最 差 响应 时 间 情 况 
下 的 最 大 吞吐 率 )。 要 改进 一 个 程序 的 性 能 ， 必 须 明 确 性 能 的 定义 ， 然后 通过 测量 程序 执行 时 间 
来 寻找 性 能 瓶颈 。 在 后 面 的 章节 中 ， 我 们 将 介绍 如 何在 系统 的 各 个 部 分 寻找 瓶颈 ， 以 改进 性 能 。 

虽然 作为 计算 机 用 户 我 们 关心 的 是 时 间 ， 但 当 我 们 深入 研究 计算 机 的 细节 时 ， 使 用 其 他 的 度量 
可 能 会 更 为 方便 。 对 计算 机 设计 者 来 说 ， 他 们 需要 考虑 如 何 度量 计算 机 硬件 完成 基本 功能 的 速度 。 
儿 乎 所 有 计算 机 都 用 时 钟 来 驱动 硬件 中 发 生 的 各 种 事件 。 时 钟 间 隔 的 时 间 称 为 时 钟 周 期 8?。 也 可 


CPU 执行 时 间 (CPU execution time) ;简称 CPU 时 间 (CPU time) ， 执 行 某 一 任务 在 CPU 上 所 花费 的 时 间 。 

用 户 CPU 时 间 (user CPU time)、 在 程序 本 身 所 花费 的 CPU 时 间 。 

系统 CPU 时 间 (system CPU time): 为 执行 程序 而 花费 在 操作 系统 上 的 时 间 。 

时 钟 周期 ( clock eycle) ; 也 叫 tick 、clock fick 、clock period 、clock 或 cycle 等 ， 为 计算 机 一 个 时 钟 周期 的 时 间 ， 
通常 是 处 理 器 时 钟 ， 一 般 为 常数 。 


@@00 
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用 它 的 倒数 来 描述 ， 称 为 时 钟 频率 (clock rate)。 例 如 ， 时 钟 周 期 为 250 ps， 对 应 的 时 钟 频率 为 
4 GHz。 在 下 一 节 ， 我 们 将 形式 化 地 定义 硬件 设计 者 的 时 钟 周期 和 计算 机 使 用 者 所 指 的 秒 之 间 的 
关系 。 
小 测验 
1) 假设 某 个 使 用 桌面 客户 闪 和 远程 服务 器 的 应 用 受 网 络 性 能 限制 。 那 么 对 于 下 列 3 种 方法 ， 哪 种 只 改进 了 
否 吐 率 ? 哪 种 同时 改进 了 响应 时 间 和 吞吐 率 ? 哪 种 都 没有 改进 ? 
A. 在 客户 端 和 服务 器 之 间 增 加 一 条 额外 的 网 络 信道 ， 从 而 增加 总 的 网 络 吞 吐 率 ， 并 减少 获得 网 络 访问 
的 延迟 〈 现 在 已 经 存在 2 条 网 络 信道 ) 。 
B.、 改 进 网 络 软件 ， 从 而 减少 网 络 通 信 延 迟 ， 但 并 不 增加 吞吐 率 。 
C. 增加 计算 机 的 内 存 。 
2) 计算 机 B 运行 给 定 的 应 用 需要 28 秒 ， 而 计算 机 C 的 性 能 是 计算 机 B 的 4 倍 。 请 问 计 算 机 C 运行 同样 的 
应 用 需要 多 少时 间 ? 


1. 4. 3 CPU 性 能 及 其 因素 


用 户 和 设计 者 往往 以 不 同 的 尺度 看 待 性 能 。 如 果 我 们 能 掌握 这 些 不 同 尺 度 之 间 的 关系 ， 就 
能 确定 一 个 设计 的 变化 对 性 能 的 影响 。 由 于 我 们 都 关注 CPU 性 能 ， 因 而 性 能 测量 实际 上 针对 的 
是 CPU 执行 时 间 。 下 面 一 个 简单 的 公式 把 最 基本 的 尺度 〈 时 钟 周 期 数 和 时 钟 周 期 时 间 ) 和 CPU 
时 间 联 系 起 来 : 

一 个 程序 的 CPU 执行 时 间 = 一 个 程序 的 CPU 时 钟 周期 数 x 时 钟 周期 时 间 

这 个 公式 清楚 地 表示 ， 硬 件 设计 者 减少 一 个 程序 的 CPU 时 钟 周期 数 ， 或 减少 时 钟 周 期 时 间 ， 
就 能 改进 性 能 。 

由 于 时 钟 频 率 和 时 钟 周 期 时 间 互 为 倒数 ， 故 

一 个 程序 的 CPU 执行 时 间 = 一 个 程序 的 CPU 时 钟 周 期 数 /时 钟 频率 

由 此 可 见 ， 提 高 时 钟 频率 也 能 改进 性 能 。 在 后 面 几 章 中 我 们 将 看 到 ， 设 计 者 经 常 要 面 对 这 些 
因素 之 间 的 权衡 。 许 多 技术 在 减少 时 钟 周期 数 的 同时 也 会 引起 时 钟 周期 时 间 的 增加 。 
性 能 的 改进 

茶 程 序 在 一 台 时 钟 频率 为 2 GHz 的 计算 机 A 上 运行 需要 10 秒 。 现 在 将 设计 一 台 计 算 机 B， 
希望 将 运行 时 间 缩 短 为 6 秒 。 计 算 机 的 设计 者 采用 的 方法 是 提高 时 钟 频率 ， 但 这 会 影响 CPU 其 
余部 分 的 设计 ， 使 计算 机 B 运行 该 程序 时 需要 相当 于 计算 机 Al.2 倍 的 时 钟 周 期 数 。 那 么 计算 机 
设计 者 应 该 将 时 钟 频率 提高 到 多 少 ? 
答案 | 

我 们 首先 要 知道 在 A 上 运行 该 程序 需要 多 少时 钟 周期 数 ， 

CPU 时 间 , = CPU 时 钟 周期 数 ,/ 时 钟 频率 ， 
10 秒 = CPU 时 钟 周 期 数 ,/2 x 10? 周期 数 / 秒 
CPU 时 钟 周 期 数 , = 10 秒 x 2 x 10” 周期 数 / 秒 = 20 x 10? 周期 数 
B 的 CPU 时 间 公 式 为 : 
CPU 时 间 。 = 1.2 x CPU 时 钟 周期 数 ,/ 时 钟 频率 。 
6 秒 = 1.2 x20 x10 时钟 周期 数 /时钟 频率 ， 
时 钟 频率 ,= 1.2 x 20 x 10” 时 钟 周期 数 /6 秒 = 0.2 x 20 x 10? 时 钟 周 期 数 / 各 
= 4 x 10 时钟 周期 数 / 秒 = 4 GHz 
因此 ， 要 在 6 秒 内 运行 完 该 程序 ，B 的 时 钟 频 率 必须 提高 为 A 的 2 倍 。 
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1. 4. 4 ”指令 的 性 能 


上 述 的 性 能 公式 没有 涉及 程序 所 需 的 指令 数 。( 在 第 2 章 中 ， 我们 将 看 到 指令 是 如 何 组 成 程 
序 的 。) 然而 ， 由 于 计算 机 是 通过 执行 指令 来 运行 程序 的 ， 因 此 执行 时 间 一 定 依赖 于 程序 中 的 指 
令 数 。 一 种 考虑 执行 时 间 的 方法 是 ， 执 行 时 间 等 于 执行 的 指令 数 乘 以 每 条 指令 的 平均 时 间 。 所 
以 ， 一 个 程序 需要 的 时 钟 周 期 数 可 写 为 : 

CPU 时 钟 周期 数 = 程序 的 指令 数 x 每 条 指令 的 平均 时 钟 周期 数 

术语 CPI 表示 执行 每 条 指令 所 需 的 时 钟 周期 数 的 平均 值 。 不 同 的 指令 需要 的 时 间 可 能 不 
同 ，CPI 是 一 个 程序 全 部 指令 所 用 时 钟 周期 数 的 平均 值 。CPI 提供 了 比较 相同 指令 集 的 不 同 实现 
方式 的 方法 ， 因 为 一 个 程序 执行 的 指 今 数 是 一 样 的 。 

EE 列 ”性 能 公式 的 使 用 

假设 我 们 有 相同 指令 集 的 两 种 不 同 实现 方式 。 计 算 机 A 的 时 钟 周期 为 250 ps， 对 某 程 序 的 
CPI 为 2.0; 计算 机 B 的 时 钟 周 期 为 500 ps， 对 同样 程序 的 CPI 为 1.2。 对 于 该 程序 ， 请 问 哪 台 计 
算 机 执行 的 速度 更 快 ? 快 多 少 ? 
答案 | 

我 们 知道 ， 对 于 固定 的 程序 ,每 台 计 算 机 执行 的 总 指令 数 是 相同 的 ， 我们 用 1 来 表示 。 首 
先 ， 求 每 台 计 算 机 的 CPU 时 钟 周期 数 : 

CPU 时 钟 周期 数 , =1x2.0 
CPU 时 钟 周期 数 。 =1Tx1.2 
现在 ， 可 以 计算 每 全 计算 机 的 CPU 时 间 : 
CPU 时 间 , = CPU 时 钟 周 期 数 ，X 时 钟 周 期 时 浊 
= [x2.0 x250 ps = 500 x J ps 
同 理 ， CPU 时 间 ， = Tx 1.2 x 500 ps = 600 x Ips 
显然 ,计算 机 A 更 快 。 快 多 少 由 执行 时 间 之 比 来 计算 
CPU 性 能 。 执行 时 间 ，。 600 xyps 
CPU 性 能 。 执行 时 间 。 500 xJTps 
因此 ， 对 于 该 程序 计算 机 A 是 计算 机 B 的 1.2 倍 快 。 


1.4.5 经 典 的 CPU 性 能 公式 


现在 我 们 可 以 用 指令 数 ”、CPI 和 时 钟 周期 时 间 来 写 出 基本 的 性 能 公式 ; 
CPU 时 间 = 指令 数 xCPI x 时 钟 周期 时 间 


1. 2 


CPU 时 间 = 指令 数 xCPL/ 时 钟 频率 
这 些 公式 特别 有 用 ， 因 为 它们 把 性 能 分 解 为 三 个 关键 因素 。 我 们 可 用 这 些 公式 来 比较 不 同 
的 实现 方案 或 评估 某 个 设计 的 替代 方案 。 
葬 列 代码 段 的 比较 
一 个 编译 器 设计 者 试图 在 两 个 代码 序列 之 间 进 行 选择 。 硬 件 设计 者 给 出 了 如 下 数据 ， 


名 CPI (clock cycles per instruction ) . 每 条 指令 的 时 钟 周 期 数 ， 表 示 执 行 某 个 程序 会 扑 所 
时 名 周期 平 志和 ， 令 7 人 程序 或 者 程序 片段 时 每 条 指令 所 需 的 
名 ”指令 数 〈instraction count) ; 执行 某 程序 所 需 的 总 指令 数量 。 
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每 类 指令 的 CPI 


cp | 3 
对 于 某 行 高 级 语言 语句 的 实现 ， 两 个 代码 序列 所 需 的 指令 数量 如 下 : 


每 类 指令 的 数量 
C 


! i 2 
2 | ! 


哪个 代码 序列 执行 的 指令 数 更 多 ? 哪个 执行 速度 更 快 ? 每 个 代码 序列 的 CPI 是 多 少 ? 
答案 


代码 序列 1 共 执 行 2+1 +2=5 条 指令 。 代 码 序列 2 共 执 行 4+1+1=6 条 指令 。 所 以 ， 代 码 


序列 2 执行 的 指令 数 更 多 。 
基于 指令 数 和 CPI， 我 们 可 以 用 CPU 时 钟 周期 公式 计算 出 每 个 代码 序列 的 总 时 钟 周期 数 为 : 


CPU 时 钟 周期 数 = 了 (CPL, x Ci) 
因此 ， 代 码 序列 1 的 CPU 时 钟 周期 数 = (2 x1) + (1 x2) + (2x3) =10 周期 ， 代 码 序列 2 的 CPU 
时 钟 周期 数 = (4x1) + (1x2) +(1x3) =9 周期 。 故 代码 序列 2 更 快 ， 尽 管 它 多 执行 了 一 条 指 
令 。 由 于 代码 序列 2 总 时 名 周期 数 较 少 ， 而 指令 数 较 多 ， 它 一 定 具有 较 小 的 CPI。CPI 的 计算 公 
式 为 ; 
CPI = CPU 时 钟 周期 数 / 指 令 数 


代入 相应 数据 可 得 
CPL = CPU 时 钟 周期 数 ,/ 指令 数 ， = 10/5 =2. 
CPI, = CPU 时 钟 周 期 数 ,/ 指令 数 ，= 9/6 = 1.5。 


1-14 给 出 了 计算 机 在 不 同 层次 上 的 性 能 测试 指标 及 其 测试 单位 。 通 过 这 些 指标 的 组 合 可 

以 计算 出 程序 的 执行 时 间 (单位 为 秒 ): 

执行 时 间 = 秒 /程序 = 指令 数 /程序 x 时钟 周期 数 /指令 x 秒 /时 钟 周期 

永远 记 住 ， 唯 一 能 够 被 完全 可 靠 测量 的 计算 机 性 能 指标 是 时 间 。 例 如 ， 对 指令 集 减 少 指令 数 
目的 改进 可 能 降低 时 钟 周期 时 间或 提高 CPI， 从 而 抵消 了 改进 的 效果 。 类 似 地 ， CPI 与 执行 的 指 
令 类 型 相关 ， 执 行 指令 数 最 少 的 代码 其 执行 速度 未 必 是 最 快 的 。 
性 能 指标 | 测量 音 
各 执行 的 和 


CPI 每 条 指令 的 平均 时 钟 周期 数 
时 钟 周期 时 间 每 时 钟 周 期 的 秒 数 


1-14 基本 的 性 能 指标 及 其 测量 单位 


如 何 确定 性 能 公式 中 这 些 因 素 的 值 呢 ? 我 们 可 以 通过 运行 程序 来 测量 CPU 的 执行 时 间 ， 并 
且 计 算 机 的 说 明 书 中 通常 介绍 了 时 钟 周 期 时 间 。 难 以 测量 的 是 指令 数 和 CPI。 当 然 ， 如 果 确 定 了 
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时 钟 频率 和 CPU 执行 时 间 ， 我 们 只 需要 知道 指令 数 或 者 CPI 两 者 之 一 ， 就 可 以 依据 性 能 公式 计 
算出 另 一 个 。 

用 仿真 器 等 软件 工具 可 以 测量 出 指令 数 ， 也 可 以 用 现代 处 理 器 中 的 硬件 计数 器 来 测量 执行 
的 指令 数 、 平 均 CEI 和 性 能 损失 源 等 。 由 于 指令 数量 取决 于 计算 机 体系 结构 ， 并 不 依赖 于 计算 机 
的 具体 实现 ， 因 而 我 们 可 以 在 不 知道 计算 机 全 部 实现 细节 的 情况 下 对 指令 数 进行 测量 。 但 是 ， 
CPI 与 计算 机 的 各 种 设计 细节 密切 相关 , .包括 存储 系统 和 处 理 器 结构 〈 我 们 将 在 第 4、5 章 中 看 
到 ) ， 以 及 应 用 程序 中 不 同类 型 的 指令 所 占 的 比例 。 因 此 ，CPI 对 于 不 同 应 用 程序 是 不 同 的 ， 对 
于 相同 指令 集 的 不 同 实现 方式 也 是 不 同 的 。 

上 述 的 例子 表明 ， 只 用 一 种 因素 (如 指令 数 ) 去 评价 性 能 是 危险 的 。 当 比较 两 台 计算 机 时 ， 
必须 考虑 全 部 三 个 因素 ,它们 组 合 起 来 才能 确定 执行 时 间 。 如 果 某 个 因素 相同 (如 上 例 中 的 时 
钟 频率 ) ， 必 须 考虑 不 同 的 因素 ， 才 能 确定 性 能 的 优 劣 。 因 为 CPI 随 着 指令 组 合 (instruction mix) 
而 变化 ， 这 样 指令 的 条 数 和 CPU 必须 被 比较 ， 即 使 时 钟 频率 是 相同 的 。 在 本 章 最 后 的 练习 题 中 ， 
有 有 几 个 是 关于 计算 机 和 编译 程序 的 性 能 评价 。 在 1. 8 节 ， 我 们 将 讨论 一 种 因 没有 全 面 考虑 各 种 因 
素 而 导致 的 对 性 能 的 误解 。 

程序 的 性 能 与 算法 、 编 程 语言 、 编 译 程序 、 体 系 结构 以 及 实际 的 硬件 有 关 。 下 表 概 括 了 这 些 
成 分 是 如 何 影 响 CPU 性 能 公式 中 的 各 种 因素 的 。 


硬件 或 软件 指标 如 何 影响 
算法 决定 源 程序 执行 指令 的 数目 ， 从 而 也 决定 了 CPU 执行 指令 的 数目 。 
算法 指令 数 ，CPI 算法 也 可 能 通过 使 用 较 快 或 较 慢 的 指令 影响 CPI。 例 如 ， 当 算法 使 用 更 多 


的 浮 点 运算 时 ， 将 会 导致 CPI 增 大 。 
编程 语言 显然 会 影响 指令 数 ， 因 为 编程 语言 中 的 语句 必须 翻译 为 指令 ， 
编程 语言 指令 数 ，CPI 从 而 决定 了 指令 数 。 编 程 语言 也 可 影响 CPI， 例 如 ，Java 语言 对 数据 抽象 
进行 了 大 量 支持 ， 将 进行 间接 调用 ， 需 要 使 用 CPI 较 高 的 指令 。 


编译 程序 的 效率 ， 既 影响 指令 数 ， 又 影响 CPI。 关 为 编译 程序 决定 了 最 
后 生成 的 计算 机 指令 ， 所 以 会 以 复杂 的 方式 影响 CPI。 


指令 数 ， 时 钟 频 指令 集体 系 结构 影响 CPU 性 能 的 所 有 方面 ， 因 为 它 影响 完成 某 功 能 所 需 
率 ，CPI 的 指令 数 、 每 条 指令 的 周期 数 以 及 处 理 器 的 时 钟 频率 。 


编译 程序 指令 数 ，CPI 


精 解 : 也 许 你 期 望 CPI 最 小 值 为 1. 0。 在 第 4 章 我 们 将 看 到 ， 有 些 处 理 器 在 每 个 时 钟 周 期 可 对 多 条 指令 
取 指 并 执行 。 有 些 设 计 者 用 IPC (instruction per clock eyele) 来 代替 CPI。 如 一 个 处 理 器 每 时 钟 周期 可 执行 2 
条 指令 ， 则 它 的 IPC =2，CPI =0. 5。 

小 测验 

茶 Java 程序 在 桌面 处 理 器 上 运行 需 时 15 秒 。 一 个 新 版 本 的 Java 编译 程序 发 行 了 ， 其 编译 产生 的 指令 
数量 是 旧版 本 Java 编译 程序 的 0. 6 倍 ， 但 不 幸 的 是 CPI 增加 为 原来 的 1. 1 倍 。 请 问 该 程序 在 新 版 本 的 Java 
编译 程序 中 运行 速度 是 多 少 ? 从 以 下 三 个 选项 中 选 出 正确 答案 。 

4A.15x0.6[1.1=8.2 秒 

B. 15 x0.6x1.1=9.9 秒 

C. 15 x 1. 1[0.6 =27.5 秒 


1.5 功 耗 墙 


图 1-15 表示 25 年 间 Intel 八代 微 处 理 器 的 时 钟 频率 和 功 耗 的 增长 趋势 、 两 者 的 增长 几乎 保持 
了 将 近 20 年 ， 但 近 几 年 来 突然 缓和 下 来 。 其 原因 在 于 两 者 是 密切 相关 的 ， 而 且 功 耗 已 经 到 达 了 
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极限 ， 无 法 再 将 处 理 器 冷却 下 来 。 
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1-15 25 年间 Intel x86 八代 微 处 理 器 的 时 钟 频率 和 功 耗 
奔腾 4 处 理 器 时 钟 频 率 和 功 耗 提高 很 大 ， 但 是 性 能 提升 不 大 。Prescott 发 热 (thermal) 问题 导致 奔腾 4 处 理 

器 (生产线 ) 的 放弃 。Core 2 (生产 线 ) 恢复 使 用 低 时 钟 频率 的 简单 流水 线 和 片上 多 处 理 器 。 

占 统治 地 位 的 集成 电路 技术 是 CMOS (互补 型 金属 氧化 半导体 ) ， 其 主要 的 功 耗 来 源 是 动态 
功 耗 ， 即 在 晶体 管 开关 过 程 中 产生 的 功 耗 。 动 态 功 耗 取决 于 每 个 品 体 管 的 负载 电容 、 工 作 电 压 和 
晶体 管 的 开关 频率 : 

功 耗 = 负载 电容 x 电压 ”x 开关 频率 

开关 频率 是 时 钟 频率 的 函数 ， 负 载 电 容 是 连接 到 输出 上 的 晶体 管 数量 ( 称 为 肩 出 ) 和 工艺 
的 函数 ， 该 函数 决定 了 导线 和 晶体 管 的 电容 。 

为 什么 时 钟 频 率 增长 为 1000 倍 ， 而 功 耗 只 增长 为 30 倍 昵 ? 因为 功 耗 是 电压 平方 的 函数 ， 能 
够 通过 降低 电压 来 大 幅 减 少 ， 每 次 工艺 更 新 换代 时 都 会 这 样 做 。 一 般 来 说 ， 每 代 的 电压 降低 大 约 
15% 。20 多 年 来 ， 电 压 从 5V 降 到 了 1 V。 这 就 是 功 耗 只 增长 为 30 倍 的 原因 所 在 。 
相对 功 耗 

假设 我 们 需要 开发 一 种 新 处 理 器 ， 其 负载 电容 只 有 旧 处 理 器 的 85$% 。 再 假设 其 电压 可 以 调 
节 ， 与 旧 处 理 器 相 比 电压 降低 了 15% ， 进 而 导致 频率 也 降低 了 15% ， 问 这 对 新 处 理 器 的 动态 功 
耗 有 何 影响 ? 


Ps (电容 负载 x0.85) x (电压 x0.85)? x (开关 频率 x0. 85) 
了 电容 负载 x 电压 "x 开关 频率 
因此 功 耗 比 为 


0. 8$” = 0. 52 

新 处 理 器 的 功 耗 大 约 为 旧 处 理 器 的 一 半 。 

目前 的 问题 是 如 果 电 压 继续 下 降 会 使 晶体 管 泄漏 电流 过 大 ， 就 像 水 龙头 不 能 被 完全 关闭 
一 样 。 目 前 40% 的 功 耗 是 由 于 泄漏 造成 的 ， 如 果 晶 体 管 的 泄漏 电流 再 大 ， 情 况 将 会 变 得 无 法 
收拾 。 

为 了 解决 功 耗 问题 ， 设 计 者 连接 大 设备 ， 增 加 冷却 ， 而 且 将 芯片 中 的 一 些 在 给 定时 钟 周期 内 
暂时 不 用 的 部 分 关闭 。 尽 管 有 很 多 更 加 昂贵 的 方式 来 冷却 芯片 ， 而 继续 提高 芯片 的 功 耗 到 300 瓦 
特 ， 但 对 桌面 计算 机 来 说 成 本 太 高 了 。 

由 于 计算 机 设计 者 遇 到 了 功 耗 墙 问题 ， 他 们 需要 开辟 新 的 路 径 ， 选 择 不 同 于 已 经 用 了 30 多 
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年 的 方法 继续 前 进 。 : 天 

精 解 . 虽然 动态 功 耗 是 CMOS 功 耗 的 主要 来 源 ， 但 静态 功 耗 也 是 存在 的 。 因为 即使 在 晶体 管 关闭 的 忆 
况 下 ， 还 是 有 沪 漏 电流 存在 。2008 年 时 典型 的 电流 泄漏 占 40 甸 的 功 耗 。 因 此 ， 增加 晶体 管 的 数目 ， 就 会 增 
加 漏电 功 耗 ， 即 使 这 些 晶体 管 总 是 关闭 的 。 各 种 各 样 的 设计 和 工艺 创新 被 用 来 控制 电流 汽 漏 ， 但 还 是 难以 


进一步 降低 电压 。 


1.6 沧海 巨变 ， 从 单 处 理 器 向 多 处 理 器 转变 

迄今 为 止 ， 很 多 软件 很 像 独唱 编写 者 所 写 的 音乐 ; 使 用 当代 的 芯片 ， 我 们 对 于 编写 二 重唱 、 
四 重唱 ， 以 及 小 型 的 合奏 具有 少量 的 经 验 ， 但 是 为 大 型 交响 乐 或 者 合唱 谱 曲 则 是 一 个 不 同 的 
挑战 。 





_ Brian Hayes, 《并 行 领域 的 计算 》，2007 
功 耗 的 极限 迫使 微 处 理 器 的 设计 产生 了 巨变 。 图 1-16 给 出 了 桌面 微 处 理 器 的 程序 响应 时 间 
的 发 展 。 从 2002 年 起 ， 其 每 年 的 增长 速率 从 1.5 下 降 到 不 足 1. 2。 
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1-16 自 20 世纪 80 年 代 中 期 以 来 处 理 器 性 能 的 发 展 
本 图 描绘 了 和 和 VAX 117780 相 比 ， 采 用 SPECint 测试 程序 得 到 的 性 能 数据 《 见 1.8 市 )。 在 20 世纪 80 年 代 
中 期 以 前 ， 性 能 的 增长 主要 靠 技 术 驱 动 ， 平 均 每 年 增长 25% 。 在 这 个 阶段 之 后 ， 增 长 速度 达到 52% ， 这 些 归 
功 于 体系 结构 的 创新 和 结构 变化 。 到 2002 年 ， 这 种 性 能 增长 发 生 了 变化 ， 大 约 是 7 的 因子 (a factor of sev- 
en) ， 面 向 浮 点 计算 的 性 能 大 幅度 增长 。 从 2002 年 开始 ， 受 到 功 耗 、 指 令 级 并 行程 度 和 长 的 存储 器 延迟 的 限 
制 ， 单 核 处 理 器 的 性 能 增长 放 缓 ， 大 约 每 年 20 多 。 


在 2006 年 ， 所 有 桌面 和 服务 器 公司 都 在 单 片 微 处 理 器 中 加 入 了 多 个 处 理 器 ， 以 求 更 大 的 知 
吐 率 ， 而 不 再 继续 追求 降低 单个 程序 运行 在 单个 处 理 器 上 的 啊 应 时 间 。 为 了 减少 processor 和 mi- 
croprocessor 〈 微 处 理 器 ) 这 两 个 词语 之 间 的 混 猪 ， 一 些 公司 将 processor 作为 “cores” 的 代称 ， 
这 样 的 微 处 理 秀 〈microprocessor) 就 是 多 核 处 理 器 了 。 因 此 ， 一 个 “四 核 ” 微 处 理 器 是 一 个 芯 
片 ， 包 含 了 4 个 processor 或 者 4 个 CULE 

1-17 给 出 了 最 近 微 处 理 带 中 核 的 数目 、 功 耗 和 时 钟 频 率 。 在 许多 公司 宜 布 的 产品 计划 中 ， 
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核 的 数目 大 约 每 2 年 将 会 翻 一 番 〈 见 第 7 章 )。 
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图 1-17 2008 年 多 核 微 处 理 器 每 芯片 的 核 数 、 时 钟 频率 和 功 耗 


在 过 去 ， 程 序 员 可 以 依赖 于 硬件 、 体 系 结构 和 编译 程序 的 创新 ， 无 需 修改 一 行 代 码 ， 程 序 的 
性 能 每 18 个 月 翻 一 秋 。 而 今天 ,程序 员 要 想 显 车 改进 啊 应 时 间 ， 必 须 重 写 他 们 的 程序 。 而 且 ， 
随 着 核 的 数目 不 断 加 倍 ， 程 序 员 也 必须 不 断 改 进 他 们 的 代码 。 

为 了 强调 软件 和 硬件 系统 的 协同 工作 ,我们 在 本 书 用 “硬件 /软件 接口 ”的 概念 来 进行 描 
述 ， 并 对 这 一 接口 概括 一 些 重要 的 观点 ， 下 面 是 本 书 中 的 第 一 个 。 
硬件 软件 接口 

并 行 性 对 计算 性 能 一 直 十 分 重要 ， 但 它 往往 是 隐藏 的 。 第 4 章 将 说 明 流水 线 ， 它 是 一 种 漂亮 
的 技术 ,通过 指令 重合 执行 使 程序 运行 得 更 快 。 这 是 指令 级 并 行 性 的 一 个 例子 。 在 抽取 了 硬件 的 
并 行 本 质 之 后 ， 程 序 员 或 编译 程序 可 认为 在 硬件 中 指令 是 串 行 执行 的 。 

迫使 程序 员 意 识 到 硬件 的 并 行 性 ， 并 显 式 地 按 并 行 方 式 重 写 其 程序 ， 曾 经 是 计算 机 体系 结 
构 的 “第 三 抱 乱 ”， 以 致 很 多 采用 此 种 方式 进行 革新 的 公司 都 失败 了 ( 见 光盘 上 7.14 节 )。 从 历 
史 发 展 的 角度 来 观察 ， 整 个 代行 业已 经 把 它 放 到 了 未 来 的 发 展 方向 上 ， 程 序 员 最 终 将 成 功 地 路 
进 到 显 式 并 行 编程 。 

为 什么 程序 员 编 写 显 式 并 行程 序 如 此 困难 呢 ? 第 一 个 原因 是 并 行 编程 以 提高 性 能 为 目的 ， 
必然 增加 编程 的 难度 。 不 仅 程序 必须 要 正确 ， 能 够 解决 重要 问题 ， 而 且 运行 速度 要 快 ， 还 需要 为 
用 户 或 其 他 程序 提供 接口 以 便 使 用 ， 和 否则 编写 一 个 串 行程 序 就 足够 了 。 

第 二 个 原因 是 为 了 发 挥 并 行 硬件 的 速度 ， 程 序 员 必须 将 应 用 划分 为 每 个 核 大 致 相同 数量 的 
任务 ， 并 同时 完成 。 还 要 尽 可 能 减 小 调度 的 开销 ， 以 不 至 于 把 并 行 的 性 能 都 浪费 掉 。 

作 一 个 比喻 ， 现 在 有 一 个 写 新 闻 故 事 的 任务 ， 如 果 由 8 名 记者 共同 来 完成 ， 能 否 提 高 8 倍 的 
写作 速度 呢 ? 为 了 实现 这 一 目标 ， 这 个 新 闻 故 事 需 要 进行 划分 ， 让 每 个 记者 都 有 事 可 做 。 假 如 某 
名 记者 分 到 的 任务 比 其 他 7 名 记者 加 起 来 的 任务 还 要 多 ， 那 用 8 名 记者 的 好 处 就 不 存在 了 。 因 
此 ,任务 分 配 必须 平衡 才能 得 到 理想 的 加 速 。 另 一 个 存在 的 危险 是 记者 要 花费 时 间 互 相交 流 才 
能 完成 所 分 配 的 任务 。 如 果 故 事 的 一 部 分 ， 例 如 结论 ， 在 所 有 其 他 部 分 完成 之 前 不 能 编写 ， 则 你 
缩短 改 事 编写 时 间 的 计划 将 会 失败 。 所 以 ， 必 须 尽 量 减 少 通信 和 同步 的 开销 。 对 于 本 文 的 比喻 和 
并 行 编程 来 说 ， 挑 战 包括 : 调度 、 负 载 平衡 、 通 信 以 及 同步 等 开销 。 你 也 许 会 想到 ， 当 更 多 的 记 
者 来 写 一 个 故事 ， 或 是 核 的 数目 更 多 时 ， 并 行 编程 的 挑战 将 更 大 。 

为 了 反映 业界 的 这 个 沧海 巨变 ， 后面 的 五 章 里 每 章 都 会 有 一 节 介 绍 有 关 并 行 性 革命 的 内 容 

。 第 2 章 , 2.11 节 : 并 行 与 指令 : 同步 。 通 常 独立 的 并 行 任务 需要 一 次 次 地 协调 ， 以 便 通 

报 它 们 何 时 完成 了 所 分 配 的 任务 。 本 章 将 解释 多 核 处 理 器 任务 同步 所 使 用 的 指令 。 

。 第 3 章 ，3.6 节 ; 并 行 性 和 计算 机 算术 : 结合 律 。 许 多 并 行程 序 员 往往 从 正在 使 用 中 的 
串 行程 序 开始 。 要 确认 他 们 的 并 行 版 程序 是 否 能 工作 就 要 回答 以 下 问题 ， 是 否 和 串 行 程 
序 得 到 了 同样 的 结果 ? 如 果 答 案 是 否定 的 ， 那 么 并 行 版 的 新 程序 就 存在 错误 。 这 个 逻辑 
假定 计算 机 运算 是 遵守 结合 律 的 : 将 一 百 万 个 数 相 加 ， 无 论 次 序 如 何 ， 得 到 的 和 是 相同 
的 。 本 章 将 解释 该 逻辑 对 整数 是 成 立 的 ， 但 对 浮 点 数 并 不 成 立 。 
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e 第 4 章 ,4.10 节 : 并 行 和 高 级 指令 级 并 行 。 尽 管 明 确 地 知道 并 行 编程 的 困难 ， 在 20 世纪 
90 年 代 依然 付出 了 巨大 的 努力 和 投资 用 于 研究 硬件 和 编译 程序 的 并 行 性 。 本 章 描述 了 其 
中 的 一 些 技术 ， 包 括 取 指 与 多 指令 同时 执行 和 推测 决策 结果 、 指 令 执行 等 。 
e 第 5 章 ，5.8 节 : 并 行 与 存储 器 层次 结构 : cache 一 致 性 。 降 低 通 信 开 销 的 一 个 方法 是 让 
所 有 处 理 器 使 用 同一 个 地 址 空间 ， 任 何 处 理 器 可 以 读 写 任何 数据 。 今 天 的 计算 机 都 采用 
cache 技术 ， 即 在 处 理 器 附近 更 快 的 存储 器 中 ， 保 持 数据 的 一 个 临时 复制 。 可 以 想象 ， 如 
果 多 个 处 理 器 访问 cache 中 的 共享 数据 不 一 致 的 话 ， 并 行 编程 将 尤为 困难 。 本 章 将 介绍 
保持 所 有 cache 数据 一 致 性 的 机 制 。 
e 第 6 章 ，6.9 节 : 并 行 性 与 VO: 廉价 磁盘 宛 余 阵列 (RAID)。 如 果 你 在 并 行 性 革命 中 忽 
略 了 ZKO， 那 么 你 的 并 行程 序 将 在 等 待 IO 上 浪费 大 量 的 时 间 。 本 章 介 绍 的 RAID 技术 ， 
可 以 加 速 外 存 访 问 的 速度 ， 这 体现 了 并 行 性 的 另 一 个 优点 : 利用 资源 的 多 个 复制 ， 即 使 
有 一 个 复制 失效 了 ， 系 统 仍 能 继续 工作 。 因 此 ，RAID 能 同时 改进 ZO 性 能 和 可 用 性 。 
除了 这 些 章节 之 外 ， 还 有 一 整 章 介绍 并 行 编程 。 第 7 章 详细 叙述 了 并 行 编程 的 挑战 性 ;提出 
了 两 种 方法 来 解决 共享 编 址 通信 和 显 式 消息 传输 ; 介绍 了 一 种 易于 编程 的 并 行 性 模型 ， 讨 论 了 
使 用 基准 测试 程序 对 并 行 处 理 器 进行 评测 的 困难 ; 为 多 核 微 处 理 器 引入 了 一 个 新 的 简单 性 能 模 
型 ; 最 后 ， 描 述 和 评价 了 四 种 使 用 该 种 模型 的 多 核 微 处 理 器 。 
本 书 从 这 一 版 开始 在 附录 A 中 介绍 了 GPU (graphics processing unit) 。GPU 是 一 种 在 桌面 计算 
机 中 越 来 越 普及 的 图 形 处 理 器 ， 它 是 为 加 速 图 像 处 理 而 发 明 的 。 得 益 于 高 度 的 并 行 性 ，GPU 表现 出 
了 优越 的 性 能 ， 并 已 发 展 为 完善 的 编程 平台 。 附 录 A 介绍 了 NVIDIA GPU 及 其 并 行 编程 环境 。 


1.7 实例: ”制造 以 及 AMD Opteron X4 基准 

我 想 ， 就 像 书 一 样 ,“ 计 算 机 ”是 一 个 全 世界 广泛 应 用 的 概念 。 但 我 没有 想到 它 会 发 展 得 如 
此 迅速 ， 因 为 我 完全 没有 预料 到 我 们 在 一 块 芯片 上 可 以 得 到 像 我 们 最 终 得 到 的 如 此 多 的 部 件 。 
晶体 管 的 进步 完全 出 乎 我 们 的 预料 。 它 比 我 们 预想 的 发 展 要 快 。 
J. Presper Eckert，ENIAC 的 创建 者 之 一 ， 言 论 发 表 于 1991 

本 书 的 每 一 章 都 有 “实例 ”一 节 ， 它 将 本 书 中 的 概念 与 我 们 日 常 使 用 的 计算 机 联系 起 来 ， 
这 些小 节 独 盖 了 现代 计算 机 中 使 用 到 的 技术 。 下 面 是 本 书 中 的 第 一 个 “实例 ”小 节 ， 我 们 将 以 
AMD Opteron X4 为 例 ， 说 明 如 何 制造 集成 电路 ， 以 及 如 何 测量 性 能 和 功 耗 。 

芯片 的 制造 从 奎 开始 。 硅 是 从 沙子 中 发 现 的 一 种 物质 。 由 于 它 导电 性 能 不 好 ， 所 以 称 为 半 
导体 。 用 特殊 的 化 学 方法 对 硅 添加 某 些 材料 ， 可 以 把 其 细微 的 区 域 转变 为 以 下 三 种 类 型 之 一 ， 

。 民 好 的 导电 体 〈 类 似 于 细微 的 铜 线 或 铝 线 ) 

。 民 好 的 绝缘 体 〈 类 似 于 塑料 或 玻璃 膜 ) 

s 可 控 的 导电 体 或 绝缘 体 (类 似 开 关 ) 

晶体 管 属于 第 三 种 。VLSI 电路 是 由 数 亿 个 上 述 三 种 材料 组 合 起 来 并 封装 在 一 起 所 制 成 的 。 

集成 电路 的 制造 过 程 对 决定 芯片 的 价格 非常 关键 ， 因此 对 计算 机 设计 者 十 分 重要 。 图 1- 18 
表示 了 集成 电路 制造 的 整个 过 程 。 集 成 电路 的 制造 是 从 硅 锭 e 开 始 的 ， 它 像 一 根 巨 大 的 香肠 。 目 
前 使 用 的 硅 锭 直径 约 8 ~ 12 英寸 ,长 度 约 12 ~ 24 英寸 。 硅 逛 经 切片 机 切 成 片 厚度 不 超过 0. 1 英 
才 的 晶 圆 ”。 这 些 唱 圆 经 过 大 约 20 ~ 40 步 化 学 加 工 最 终 产生 之 前 所 讨论 的 晶体 管 、 导 体 和 绝缘 





日 硅 (silicon) : 一 种 自然 元 素 ， 它 是 一 种 半导体 。 

加 半导体 〈semiconductor) ; 一 种 导电 性 能 不 好 的 物质 。 

加 奎 鲜 (silicon crystal ingot) : 一 块 由 硅 晶 体 组 成 的 棒 。 直 径 大 约 在 8 ~ 12 英寸 ,长 度 约 12 ~24 英寸 。 
四 晶 圆 (wafer) : 厚度 不 超过 0. 1 英寸 的 硅 锭 片 ， 被 用 来 制造 芯片 。 
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体 。 如 今 的 集成 电路 包含 一 层 晶 体 管 ， 但 是 可 能 具有 多 个 绝缘 层 间 隔 的 2 ~8 层 金 属 导 体 。 


硅 狂 空白 硅 晶 贺 
EE L pe Se 20 步 ~ 40 步 
， 
测试 后 的 芯片 测试 后 的 图 样 化 晶 贺 
Ed 品 圆 
口中 加 二 全 品 圆 
LILILIL 
| 跨国 
封装 后 的 芯片 
DIDID 部 件 
口 IOIOD 测试 仪 





图 1-18 芯片 制造 的 全 过 程 
从 硅 锭 切 下 来 之 后 ， 空 白 的 品 圆 经 过 大 约 20 步 ~40 步 的 加 工 ， 产 生 图 样 化 的 唱 贺 〈 见 图 1-19) 。 这 些 图 样 
化 的 晶 圆 被 - -个 晶 圆 测试 器 所 测试 ， 产 生 一 个 表明 哪些 部 分 是 好 的 图 。 之 后 ， 这 些 晶 圆 被 进一步 切 成 芯 
( 见 图 1-19) 。 在 本 图 中 ，--- 个 晶 圆 能 生产 20 个 芯片 ， 其 中 有 17 个 通过 测试 。(X 意味 着 这 个 芯片 是 坏 的 。) 
本 例 中 芯片 的 良 率 / 成 品 率 是 17/20， 也 就 是 85% 。 这 些 合格 芯片 被 封装 而 且 发 布 给 用 户 之 前 经 过 多 次 测试 。 
- -个 坏 的 封装 会 在 最 终 的 测试 中 被 发 现 。 
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1-19 AMD Opteron X2 芯片 的 12 英寸 (300 mm)】 昆 圆 ， 
Opteron X4 芯片 的 上 代 产 品 {AMD 提供 ) 
恨 率 为 100% 的 融 片 中 的 晶 圆 的 数目 是 117。 量 圆 边缘 几 十 个 不 完整 的 芯片 是 没 用 的 。 之 所 以 包含 它们 ， 
为 这 样 给 硅 片 生产 掩 膜 相 当 容 易 。 唱 圆 使 用 90 nm 的 工艺 ， 这 意味 着 最 小 的 晶体 管 的 尺寸 几乎 接近 90 nm， 
管 它们 通常 比 实际 的 特征 尺寸 还 要 小 ， 这 个 特征 尺寸 是 将 晶体 管 “ 图 纸 尺寸 ”和 最 终 的 生产 尺寸 相 比 。 


六 本 


昌 贺 中 或 是 在 图 样 化 的 几 十 个 步骤 中 出 现 一 个 细微 的 瑕 疯 就 会 使 其 附近 的 电路 损坏 ， 这 些 
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环 疫 使 得 制 成 一 个 完美 的 晶 圆 几乎 是 不 可 能 的 。 有 几 种 策略 可 以 解决 这 一 问题 ， 最 简单 的 策略 
是 把 唱 圆 切 分 成 许多 独立 的 唱 圆 ， 也 就 是 现在 所 称 的 芯片 ”。 图 1-19 所 示 就 是 切 分 前 的 微 处 理 器 
唱 圆 ， 而 图 1-9 则 是 单个 微 处 理 器 芯片 及 其 主要 部 件 。 

通过 切 分 ， 可 以 只 淘汰 那些 有 瑕 辛 的 芯片 ， 而 不 必 淘 状 整 个 唱 圆 。 对 这 一 过 程 的 量化 描述 可 
以 用 成 曲率 “来 表示 ， 其 定义 为 合格 芯片 数 占 总 芯片 数 的 百分比 。 例 如 ， 假 设 总 芯片 有 22 片 ， 
其 中 有 形 疲 的 芯片 为 3 片 ， 则 成 品 率 为 19/22 = 86% 。 

当 芯 片 尺寸 增 大 时 ， 集 成 电路 的 价格 会 快速 上 升 ， 因 为 成 品 率 和 硅 片 中 芯片 的 总 数 都 下 降 
了 。 为 了 降低 价格 ， 一 个 大 芯片 常 采用 下 一 代 工 艺 进行 尺寸 收缩 (包括 晶体 管 和 导线 ) 的 方法 ， 
从 而 改进 每 硅 片 的 芯片 数 和 成 品 率 。 

合格 芯片 要 连接 到 LO 引 脚 上 ， 这 一 过 程 称 为 “封装 ”。 在 封装 之 后 ， 必 须 进 行 最 后 一 次 测 
试 ， 因 为 封装 过 程 也 可 能 出 错 。 最 后 芯片 将 被 交付 用 户 。 

如 之 前 提 到 的 ， 功 耗 是 在 设计 过 程 中 所 面临 的 不 断 增 长 的 压力 ， 主 要 有 两 个 原因 : 第 一 ， 芯 
片 的 工作 必须 供电 ， 并 且 电 源 必 须 均 匀 地 分 布 在 芯片 上 ， 现 代 微 处 理 器 通常 用 几 百 个 引 脚 满足 
供电 和 接地 的 需求 ， 并 使 用 多 层 互 连 来 使 电源 和 接地 均匀 分 布 到 芯片 上 。 第 二 ， 功 耗 是 以 散热 的 
形 却 从 心 片 中 排除 的 ， 而 芯片 的 面积 非常 小 。 例 如 ，2008 年 的 AMD Opteron X4 2356 2. 0 GHz 处 
理 峰 功 耗 为 120 瓦 ， 而 其 表面 积 只 有 约 1 平方 厘米 。 

精 解 ; 集成 电路 的 成 本 可 以 用 下 面 3 个 公式 来 表示 : 

每 芯片 的 价格 = 每 易 圆 的 价格 /( 每 唱 圆 的 芯片 数 x 成 品 率 ) 
每 晶 圆 的 芯片 数 = 唱 圆 面积 /芯片 面积 
成 品 率 = 1/(1 +【( 单 位 面积 的 环 狗 数 x 芯片 面积 /2))? 

第 1 个 公式 是 直接 导出 的 。 第 2 个 公式 是 近似 的 ， 因 为 没有 减 去 晶 圆 边 上 不 满足 芯片 矩形 要 求 的 面积 
(参见 图 1-19) 。 第 3 个 公式 是 基于 集成 电路 工厂 的 成 品 率 经 验 ， 与 重要 加 工 步 又 的 数量 呈 指 数 关系 。 

因此 ， 侍 片 的 成 本 取决 于 成 品 率 、 芯 片 和 晶 圆 的 面积 ， 与 芯片 的 面积 之 间 的 关系 一 般 不 是 线性 的 。 


1.7.1 SPEC CPU 基准 测试 程序 


用 户 日 复 一 日 使 用 的 程序 是 用 于 评价 新 型 计算 机 最 完美 的 程序 。 所 运行 的 一 组 程序 集 构成 
了 工作 负载 ” 。 要 评价 两 台 计算 机 系统 ， 只 需 简单 地 比较 工作 负载 在 两 台 计 算 机 上 的 运行 时 间 。 
然而 大 多 数 用 户 并 不 这 样 做 ， 他 们 通过 其 他 方法 测量 计算 机 的 性 能 ， 从 而 决定 最 终 的 选择 。 最 常 
用 的 测量 方法 是 使 用 一 组 专门 用 于 测量 性 能 的 基准 测试 程序 ?。 这 些 测 试 程序 形成 负载 ， 用 户 其 
望 预测 实际 负载 的 性 能 。 

SPEC (System Performance Evaluation Cooperative ) 是 由 许多 计算 机 销售 商 共 同 出 资 链 助 并 支 
持 的 合作 组 织 ， 目 的 是 为 现代 计算 系统 建立 基准 测试 程序 集 。1989 年 ，SPEC 建立 了 重点 面向 处 
理 锻 性 能 的 基准 程序 集 (现在 称 为 SPEC89 ) 。 历 经 5 代 发 展 ， 目 前 最 新 的 是 SPEC CPU2006， 它 
包括 12 个 整数 基准 程序 集 (CINT2006) 和 17 个 浮 点 基准 程序 集 (CFP2006) 。CINT2006 包括 C 
编译 程序 、 量 子 计 算 机 仿真 、 下 象棋 程序 等 ，CFP2006 包括 有 限 元 模型 结构 化 网 格 法 、 分 子 动力 
学 质点 法 、 流 体 动力 学 稀疏 线性 代数 法 等 。 

图 1-20 列举 了 SPEC 整数 基准 程序 及 其 在 AMD Opteron X4 上 的 执行 时 间 、 指 令 数 、CPI 和 时 


联 六 (defect) : 品 圆 上 一 个 微小 的 缺陷 ， 或 者 在 图 样 化 的 过 程 中 因为 包含 这 个 缺陷 而 导致 芯片 失效 。 

必 片 《die) : 从 晶 圆 中 切割 出 来 的 一 个 单独 的 矩形 区 域 ， 更 加 正式 的 叫 法 是 芯片 (chip) 。 

成 品 这 〈yield) : 合格 芯片 数 占 总 芯片 数 的 百分比 。 

让 (workload) : 运作 在 计算 机 上 的 一 组 程序 ， 可 以 直接 使 用 用 户 的 一 组 实际 应 用 程序 ， 也 可 以 从 实际 程 
基准 测试 程序 (benchmark) : 用 于 比较 计算 机 性 能 的 程序 。 


@ 四 由 00 
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钟 周 期 时 间 等 。 注 意 : CPI 的 最 大 值 和 最 小 值 相差 达到 13 倍 。 






解 性 站 处 理 2118 | 075 9770 
快 分 类 下 给 bi 0 9650 
we 17 724 | 8050 


bzip? | 
hmmer | 











0 7 70 | 198 
视频 压缩 
离 事 件 仿 丰 库 

， 0.4 773 





游戏 /路 径 导 技 9 0 7020 | 91 | 
XML 语法 分 析 270 6900 | 60 | 


几何 平均 值 | 


1-20 SPECINTC2006 基准 程序 在 AMD Opteron X4 model 2356 (Barcelonaj 上 的 运行 结果 
按照 1. 4.5 节 的 等 式 ， 执 行 时 间 是 本 表 的 三 个 因素 的 乘积 : 上 亿 的 指令 数 、 每 个 执行 的 时 钟 数 〈(CPI) ， 
以 及 纳 秒 级 的 时 钟 周期 时 间 。SPECratio 仅仅 是 参考 时 间 ,， 由 SPEC 所 提供 ， 被 所 测量 的 执行 时 间 相 除 。 
SPECINTC2006 所 引用 的 单个 数目 是 SPECratio 的 几何 平均 数 。 图 5-40 诬 示 的 是 mef、libquantum、omnetpp 以 
及 xalancbmk 具有 相对 高 的 CPI， 因 为 这 些 负 和 载 的 cache 缺失 率 比 较 高 。 


为 了 简化 测试 结果 ，SPEC 决定 使 用 单一 的 数字 来 归纳 所 有 12 种 整数 基准 程序 。 具 体 方法 是 
将 锌 测 计算 机 的 执行 时 间 标 准 化 ， 即 将 被 测 计算 机 的 执行 时 间 除 以 一 个 参考 处 理 器 的 执行 时 间 ， 
结 采 称 为 SPECratio。SPECratio 值 越 大 ， 表 示 性 能 越 快 (因为 SPECratio 是 执行 时 间 的 倒数 )。 
CINT2006 或 CFP2006 的 综合 测试 结果 是 取 SPECratio 的 几何 平均 值 。 

精 解 :在 使 用 SPECratio 比较 两 台 计 算 机 时 采用 的 是 几何 平均 值 ， 这 样 可 以 使 得 无 论 采用 哪个 计算 机 进 
行 标准 化 都 可 得 到 同样 的 相对 值 。 如 果 采 用 的 是 算术 平均 值 ， 结 果 会 随 选 用 的 参考 计算 机 而 变 。 

几何 平均 值 的 公式 是 








其 中 执行 时 间 比 i 是 执行 时 间 按 参照 计算 机 进行 标准 化 的 结果 ,a 表示 w x mw x … x a 


1.7.2 SPEC 功 耗 基准 测试 程序 


目前 ，SPEC 提供 了 十 几 种 不 同 的 基准 测试 程序 ， 使 用 真实 的 应 用 程序 、 严 格 制定 的 执行 规 
则 以 及 报告 需求 ， 达 到 测试 不 同 的 计算 环境 的 目的 。 其 中 最 新 的 是 SPECpower， 它 可 以 报告 服务 
带 在 不 同 负 和 载 水 乎 下 (以 10% 的 比例 递增 ) 的 功 耗 。 图 1-21 给 出 了 在 基于 Barcelona 处 理 器 的 服 
务 器 上 的 测试 结果 。 

SPECpower 最 早 米 自 于 面向 Java 商业 应 用 的 SPEC 基准 程序 (SPECJBB2005) ， 它 主要 测试 处 
理 怖 、caches 、 主 存 以 及 Java 虚拟 机 、 编 译 器 、 无 用 单元 收集 器 、 操 作 系 统 片段 。 性 能 采用 吞吐 
率 来 测量 ， 单 位 是 每 秒 完成 的 操作 次 数 。 还 是 为 了 简化 结果 ，SPEC 采用 单个 的 数字 来 进行 归纳 ， 
称 为 “overall ssj _ops per Watt”， 其 计算 公式 是 ， 


overal] ssj _ops per Watt = ( >, ssj_ops, )/ ( > Power ] 
式 中 ，ssj_ops; 为 工作 负载 在 每 10% 增 量 处 的 性 能 ，power, 是 对 应 的 功 耗 。 
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1-21 SPECpower_ssj 2008 在 服务 器 上 的 运行 结果 
服务 器 的 具体 配置 为 双 插 模 2.3 GHz AMD Opteron X4 2356 (Barcelona) 处 理 器 ，16 GB DDR2-667 DRAM，500 GB 硬盘 。 


2035 
246 
222 
206 
493 


小 测验 
产量 是 决定 集成 电路 价格 的 一 个 关键 因素 。 下 列 哪些 理 由 说 明了 芯片 产量 越 高 成 本 就 越 低 ? 
A. 高 产量 使 得 在 制造 过 程 中 能 够 适当 调节 设计 ， 从 而 提高 成 品 率 。 

. 设计 高 产量 芯片 的 工作 量 比 设计 低产 量 芯 片 小 。 

. 制造 必 片 用 的 掩 膜 很 贵 ， 产 量 高 时 每 芯片 的 掩 膜 成 本 就 低 。 

- 工程 开发 的 成 本 高 ， 并 且 基 本 与 产量 无 关 ， 故 产量 高 时 每 芯片 的 开发 成 本 较 低 。 

产量 高 时 ， 通 常 每 芯片 的 面积 比 产量 低 时 小 ， 因 此 成 品 率 较 高 。 


1.8 廖 误 与 陷阱 


关口 人 交大 





Sir Karl Popper, 《The Philosophy of Science》，1957 
本 书 中 每 一 章 都 会 有 “ 废 误 与 陷阱 ”一 节 ， 其 目的 是 说 明 我 们 在 实际 中 经 常 遇 到 的 误解 ， 
我 们 称 之 为 “ 雇 误 ”。 当 讨论 廖 误 时 ， 我 们 会 举 出 一 个 反例 。 我 们 也 讨论 陷阱 ， 即 那些 容易 犯 的 
错误 。 通 常 陷阱 是 指 一 般 原理 只 在 有 限 的 上 下 文中 才 是 真 的 。 本 节 引 在 帮助 你 在 设计 或 使 用 计 
算 机 时 避免 犯 同样 的 错误 。 价 格 /性 能 雇 误 和 陷阱 使 许多 计算 机 架构 师 掉 入 圈套 。 下 面 开 始 介绍 
本 书 的 第 一 个 陷阱 ， 虽 然 它 曾 迷惑 了 许多 设计 者 ， 却 揭示 了 计算 机 设计 中 的 一 个 重要 关系 。 
陷阱 : 在 改进 计算 机 的 某 个 方面 时 期 望 总 性 能 的 提高 与 改进 大 小 成 正比 。 
软 硬 件 设计 者 都 曾 碰 到 过 这 个 陷阱 。 用 一 个 简单 的 例子 就 可 以 很 好 地 说 明 。 假 设 一 个 程序 
在 一 台 计 算 机 上 运行 需要 100 秒 ， 其 中 80 秒 的 时 间 用 于 乘法 操作 。 如 果 要 把 该 程序 的 运行 速度 
提高 到 5 倍 ， 乘 法 操作 的 速度 应 该 改进 多 少 ? 
改进 以 后 的 程序 执行 时 间 可 用 下 面 的 Amdahl 定律 计算 : 

改进 后 的 执行 时 间 = 受 改 进 影 响 的 执行 时 间 / 改 进 量 + 不 受 影响 的 执行 时 间 
代入 本 例 的 数据 进行 计算 : 
改进 后 的 执行 时 间 =80/n + (100 -80) 
由 于 要 求 快 至 5 倍 ， 新 的 执行 时 间 应 该 是 20: 


@ Amdahl 定律 (Amdahl' s law) : 阐述 了 “对 于 特定 改进 的 性 能 提升 可 能 由 所 使 用 的 改进 特征 的 数量 所 限制 ”的 
规则 。 它 是 “收益 递减 定律 ”的 量化 版 本 。 
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20 = 80/n + 20 

0 = 80/n 
可 见 ， 如 果 乘 法 运算 占 总 负载 的 80% ， 则 无 论 怎样 改进 乘法 ， 也 无 法 达到 性 能 提高 至 5 倍 的 结 
果 。 特 定 改 进 的 性 能 提升 由 所 使 用 的 改进 特征 的 数量 所 限制 。 这 个 概念 也 产生 了 在 每 天 的 生活 
中 我 们 称 为 “收益 递减 ”的 定律 。 

当 我 们 知道 一 些 函 数 所 消耗 的 时 间 及 其 潜在 的 加 速 时 ， 我 们 就 可 以 使 用 Amdahl 定律 预测 性 
能 的 提升 。 将 Amdahl 定律 与 CPU 性 能 公式 结合 ， 是 一 种 很 方便 的 性 能 评价 工具 。 读 者 可 以 在 本 
章 练 习 中 进一步 体会 。 

硬件 设计 的 共同 主题 是 Amdahl 定律 的 一 个 推论 : 加 速 常见 事件 。 这 个 推论 提示 我 们 ， 在 许 
多 情况 下 某 些 事 件 的 发 生 频 率 可 能 比 其 他 事件 高 得 多 。 因 此 ， 改进 量 的 大 小 受 事 件 占 用 时 间 的 
多 少 的 限制 。 因 此 ， 加 快 常见 事件 相对 于 加 快 罕见 事件 更 能 提高 性 能 。 具 有 讽刺 意味 的 是 ， 和 常见 
事件 往往 比 罕见 事件 更 简单 ， 因 而 更 容易 实现 。 

Amdahl 定律 还 应 用 于 并 行 处 理 器 数量 的 实际 限制 中 ， 我 们 将 在 第 7 章 中 的 “ 诬 误 与 陷阱 ” 
介绍 。 

廖 误 : 利用 率 低 的 计算 机 功 耗 低 。 

服务 器 的 工作 负载 是 变化 的 ， 所 以 在 低 利用 率 的 情况 下 功率 很 重要 。 例 如 ，Google 服务 器 中 
CPU 利用 率 大 多 数 时 间 在 10% ~50% 之 间 ， 只 有 不 到 1 多 的 时 间 达 到 100% 。 图 1-22 给 出 了 三 种 
服务 器 在 100% 负载 、50% 负载 、10% 负载 和 空闲 时 的 最 好 SPECpower 结果 。 从 中 可 以 看 到 ， 即 
使 服务 器 的 利用 率 只 有 10% ， 也 会 消耗 掉 大 约 2/3 的 峰值 功 耗 。 





图 1-22 三 种 服务 器 在 最 佳 ssj ops per watt 时 的 SPECPower (2007 年 第 4 季度 ) 
三 种 服务 器 的 ssj_ops per watt 依次 为 698 、682 和 667。 上 面 两 种 服务 器 内 存 为 16 GB， 最 下 面 的 服务 器 内 存 为 8 GB。 


陷阱 : 用 性 能 公式 的 一 个 子 集 去 度量 性 能 。 
我 们 早 就 指出 了 一 种 诺 误 : 简单 地 只 用 时 钟 频率 、 指 令 数 和 CPI 之 一 去 预测 性 能 。 另 一 种 常 
犯 的 错误 是 只 用 三 种 因素 之 二 去 比较 性 能 。 虽 然 这 样 做 在 有 些 条 件 下 可 能 正确 ， 但 这 种 方法 容 
易 误 用 。 实 际 上 ， 几 乎 所 有 取代 用 时 间 去 度量 性 能 的 方法 都 会 导致 焉 曲 的 结果 或 错误 的 解释 。 
例如 ， 曾 经 有 一 种 用 MIPS” (每 秒 百 万 条 指令 ) 取代 时 间 去 度量 性 能 的 方法 。 对 于 一 个 给 
定 的 程序 ，MIPS 表示 为 : 
MIPS = 指令 数 __ 令 数 
执行 时 间 x 105 
MIPS 是 指令 执行 的 速率 ， 它 规定 了 性 能 与 执行 时 间 成 反比 ， 越 快 的 计算 机 具有 越 高 的 MIPS 
值 。 从 表面 看 ，MIPS 既 容 易 理解 ， 又 符合 人 的 直觉 。 
其 实 ， 用 MIPS 作为 度量 性 能 的 指标 ， 存 在 三 个 问题 。 首 先 ，MIPS 规定 了 指令 执行 的 速率 ， 


折 MIPS (million instmctions per second ) : 基于 百 万 条 指令 的 程序 执行 速度 的 一 种 测量 。 指 令 条 以 执行 时 让 
nn 首 令 条 数 除 以 执行 时 间 与 
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但 没有 考虑 到 指令 的 能 力 。 我 们 没有 办 法 用 MIPS 去 比较 不 同 指令 集 的 计算 机 ， 因 为 指令 数 肯定 
是 不 同 的 。 其 次 ， 在 同一 计算 机 上 ， 不同 的 程序 会 有 不 同 的 MIPS， 因 而 一 台 计 算 机 不 会 只 有 一 
个 MIPS 值 。 例 如 ， 将 执行 时 间 用 指令 数 、CPI、 时 钟 频率 代入 之 后 可 得 : 





指令 数 _ 时 钟 频率 
MIPS = 指令 数 x CPI 105 CPIx10 
时 钟 频率 


回顾 一 下 ，SPEC2006 在 AMD Opteron X4 上 的 CPI 最 大 值 和 最 小 值 是 相差 13 倍 的 ，MIPS 也 是 如 
此 。 最 后 一 点 ， 也 是 最 重要 的 一 点 ， 如 采 一 个 新 程序 执行 的 指令 数 更 多 ， 但 每 条 指令 的 执行 速度 
更 快 ， 则 MIPS 的 变化 是 与 性 能 无 关 的 。 

小 测验 


某 程序 在 两 台 计 算 机 上 的 性 能 测量 结果 为 : 


TT TT 
将 人 


1) 哪 台 计 算 机 的 MIPS 值 更 高 ? 
2) 哪 台 计算 机 更 快 ? 


1.9 本章 小 结 

那里 ……PENIAC 配备 有 18 000 个 真空 管 ， 重量 达 30 吨 ， 未 来 的 计算 机 具有 1 000 个 真空 管 ， 
可 能 仅仅 有 1.5 吨 重 。 

一 一 《Popular Mechanics》，1949. 3 

时 然 很 难 准确 预测 未 来 计算 机 的 成 本 与 性 能 将 发 展 到 怎样 的 水 平 ， 但 确定 的 是 一 定 会 比 现 
在 的 计算 机 更 好 。 计 算 机 性 能 水 平 的 提高 是 永 无 止境 的 ， 计 算 机 设计 者 和 程序 员 必 须 理解 更 广 
沁 的 问题 。 

便 件 和 软件 设计 者 都 是 用 分 层 的 方法 构建 计算 机 系统 ， 每 个 下 层 都 对 其 上 层 隐 藏 本 层 的 细 
T。 这 个 抽象 原理 是 理解 当今 计算 机 系统 的 基础 ， 但 这 并 不 意味 着 设计 者 只 要 懂得 抽象 原理 就 
足够 了 。 也 许 最 重要 的 抽象 层次 是 硬件 和 底层 软件 之 间 的 接口 ， 称 为 指令 集体 系 结构 。 将 指令 集 
体系 结构 作为 一 个 常量 可 以 使 其 不 同 的 实现 方法 〈 价 格 和 性 能 可 能 不 同 ) 能 够 运行 同一 软件 。 
产生 的 一 个 副 效应 : 这 些 预 先 排除 可 能 需要 接口 发 生变 化 的 那些 革新 结构 。 

有 一 个 可 靠 的 测定 性 能 的 方法 ， 即 用 实际 程序 的 执行 时 间作 为 尺度 。 该 执行 时 间 与 我 们 能 
够 通过 下 面 公式 测量 到 的 其 他 重要 指标 相关 : 

秒 数 / 程 序 = (指令 数 / 程 序 ) x (时 钟 周期 数 / 指 令 数 ) x ( 秒 数 / 时 钟 周期 数 ) 

本 书 中 我 们 将 多 次 使 用 这 一 公式 及 其 组 成 因子 。 必 须 明确 的 是 ， 任何 一 个 独立 的 因子 都 不 
能 确定 性 能 ， 只 有 三 个 因子 的 乘积 〈 即 执行 时 间 ) 才 是 可 靠 的 性 能 度量 标准 。 

执行 时 间 是 唯一 有 效 且 不 可 推翻 的 性 能 度量 方法 。 人 们 曾经 提出 许多 其 他 度量 方法 ， 但 均 
以 失败 告终 。 有 些 从 一 开始 就 没有 反映 执行 时 间 ， 因 而 是 无 效 的 ; 还 有 一 些 只 能 在 有 限 条 件 下 有 
效 ， 超 出 了 限制 条 件 则 失效 ， 或 是 没有 清晰 的 说 明 有 效 性 的 限制 条 件 。 

现代 处 理 器 硬件 的 关键 技术 是 硅 。 与 理解 集成 电路 技术 同样 重要 的 是 理解 我 们 所 期 望 的 技 
术 进 步 速率 。 在 硅 技术 加 快 硬件 进步 的 同时 ， 计算 机 组 织 的 新 思想 也 改进 了 产品 的 性 价 比 。 其 中 
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有 两 个 重要 的 新 思想 : 第 一 ， 在 程序 中 开发 并 行 性 ， 目 前 的 典型 方法 是 借助 多 处 理 器 ; 第 二 ， 开 
发 存储 层次 结构 的 访问 局 部 性 ， 目 前 的 典型 方法 是 通过 cache。 

功 耗 已 经 取代 世 片 面积 ， 成 为 徽 处 理 器 设计 中 最 重要 的 资源 。 保 存 功 耗 并 且 改 进 性 能 的 需 
求 已 经 迫使 硬件 工业 疝 多 核 微 处 理 器 暑 进 ， 从 而 迫使 软件 工业 向 并 行 硬件 编程 峻 进 。 

计算 机 设计 总 是 以 价格 和 性 能 来 度量 的 ， 也 包括 其 他 一 些 重要 的 因素 ， 如 功 耗 、 可 靠 性 、 成 
本 和 可 扩展 性 等 。 尽 管 本 章 的 重点 放 在 价格 、 性 能 和 功 耗 上 ， 但 是 最 佳 的 设计 应 该 在 特定 的 应 用 
领域 中 取得 所 有 因素 之 间 适 当 的 平衡 。 


本 书 导 读 


本 章 介绍 了 计算 机 的 基本 概念 ， 以 及 计算 机 的 五 个 常见 部 件 : 运算 器 、 控 制 器 、 存 储 器 、 输 
入 和 输出 ( 见 图 1-4)。 这 五 个 部 件 也 是 本 书后 面 几 章 的 框架 : 

。 运算 器 : 第 3、4、7 章 和 附录 A 

。 控制 器 : 第 4、7 章 和 附录 A 

e 友和 储 器 : 第 5 章 

e 输入 : 第 6 章 

e 输出: 第 6 章 

如 上 所 述 ， 第 4 章 介 绍 处 理 器 如 何 开发 隐 式 并 行 性 ， 第 7 章 介绍 并 行 革命 的 核心 一 一 显 式 并 
行 多 核 微 处 理 器 ， 附 录 A 介绍 高 度 并 行 的 图 像 处理 器 芯片 。 第 5 章 介绍 如 何 开发 展 次 存储 结构 
的 访问 局 部 性 。 第 2 章 介绍 指令 集 〈 编 译 器 和 计算 机 之 间 的 接口 ) ， 并 强调 了 编译 器 和 编程 语言 
在 利用 指令 集 特性 方面 的 作用 。 附 录 B 提供 了 第 2 章 指令 集 的 参考 数据 。 第 3 章 介绍 计算 机 如 何 
处 理 算术 运算 。 附 录 C 在 光盘 上 ， 介 绍 逻 辑 设 计 。 


“1. 10 拓展 阅读 

活路 的 科学 领域 就 像 一 个 巨大 的 蚂蚁 帘 ; 人 们 消失 在 互相 对 立 的 (tumbling) 的 观点 中 ， 人 
们 以 光束 传递 着 信息 ， 将 信息 从 一 个 地 方 传 到 另 一 个 地 方 。 

一 一 Lewis IThomas, 《细胞 生命 的 礼赞 》 中 的 “自然 科学 ”，1974 

本 书 的 每 一 章 都 有 “拓展 阅读 ”一 节 ， 可 在 本 书 所 附 的 光盘 上 找到 。 我 们 可 以 通过 一 系列 
的 计算 机 来 追踪 某 一 思想 的 发 展 历程 ， 或 者 叙述 一 些 重要 的 历史 贡献 ， 还 提供 参考 数据 以 便 你 
进一步 探究 。 

本 昔 的 “拓展 阅读 ”提供 了 几 个 关键 思想 的 历史 背景 ， 其 目的 是 向 你 介绍 对 技术 进步 作出 
页 献 的 重要 历史 人 物 。 通 过 理解 过 去 ， 你 可 以 更 好 地 理解 那些 推动 未 来 计算 技术 进步 的 力量 。 
CD 中 每 个 莉 展 阅读 之 后 都 会 提示 进一步 阅读 ， 这 部 分 具体 内 容 会 在 CD 中 的 “进一步 阅读 ”部 
分 。 在 CD 中 能 看 到 1. 10 节 的 剩余 部 分 。 


1. 11 练习 题 
练习 由 Universidade -ie Santiago de Compostela { 和 圣地亚哥 大 学 . 德 孔 波斯 特 拉 ) 的 Javier Bre- 
guUuera 提供 OQ b 
本 版 的 习题 大 都 设 计 成 以 定性 的 介绍 辅 以 可 选 的 参数 表 。 这 些 参 数 是 解 题 所 必需 
以 必定 采用 任意 一 个 ， 或 者 全 部 的 参数 来 解 题 (每 个 题目 需要 多 少 个 参数 由 你 决定 ) 。 例 如 < 各 
以 将 作业 布置 成 “用 表 中 A 行 的 参数 完成 练习 4. 1. 1”。 教 师 也 可 以 依 需要 更 换 参 数 来 定制 各 
以 求 新 的 解 题 方案 。 
定量 习题 的 数目 各 章 不 同 ， 主 要 取决 于 教材 内 容 。 当 定量 的 方法 不 适合 时 就 提供 一 些 当 规 
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的 练习 。 
完成 练习 所 需 的 相对 时 间 比 率 标示 在 题 号 之 后 的 方 括号 中 。 平 均 来 说 ， 做 标记 【10」 的 练 
习 用 的 时 间 是 做 标记 [5]j 的 练习 的 2 倍 。 做 题 前 应 先 阅读 的 章节 则 标示 在 尖 括 号 中 。 例 如 ， 


<1.3 > 表示 你 应 该 在 读 过 1. 3 节 后 才能 完成 本 题 。 


习题 1. 1 
从 下 面 的 列表 中 找 出 与 问题 最 为 匹配 的 一 项 ， 用 项 号 回答 ， 每 项 只 能 使 用 一 次 。 


TT TT 
2 间 而 和 第 
2 应用 吉 人 
ET Co 

5 关机 2 

7 pear 


1.1.1 [2] <1.1 > 用 于 运行 大 规模 问题 ， 并 通常 通过 网 络 访问 的 计算 机 
1.1.2 [2] <1.1>10" 或 2” 字 节 

1.1.3 [2] <1.1> 由 成 百 上 千 个 处 理 器 和 若干 terabyte 级 内 存 组 成 的 计算 机 
.4 [2] <1.1> 目 前 尚 为 科学 幻想 的 应 用 ,但 是 很 可 能 即将 成 为 现实 

5 [2j <1.1 > 一 种 称 为 随机 访问 内 存 的 内 存 

6 [2] <1.1 > 一 种 称 为 中 央 处 理 器 的 计算 机 部 件 

7 [2] <1.1> 上 千 个 处 理 器 形成 的 大 集群 

8 [2j <1.1> 在 同一 个 芯片 中 含有 几 个 处 理 器 的 微 处 理 器 

“9 [2] <1.1> 没 有 显示 器 和 键盘 的 桌面 计算 机 ， 通 常 通过 网 络 访问 

10 [2] <1.1> 当今 最 大 的 一 类 计算 机 ， 运 行 一 个 应 用 或 一 组 相关 的 应 用 
11 [2] <1.1 > 用 于 描述 硬件 部 件 的 特殊 语言 

12 [2] <1.1> 对 单 用 户 以 低 成 本 提供 高 性 能 的 个 人 计算 机 

13 [2] <1.2 > 将 高 级 语言 语句 翻译 成 汇编 语言 的 程序 

.14 [2] <1.2> 将 符号 指令 翻译 成 二 进 制 指令 的 程序 

15 [2] <1.1> 商业 数 据 处 理 用 的 高 级 语言 

.16 [2] <1.1 > 处理 器 能 够 理解 的 二 进 制 语言 

17 [2] <1.1 > 处 理 器 能 够 理解 的 命令 

18 [2j <1.1> 科 学 计算 用 的 高 级 语言 

1.1.19 [2] <1.1> 机 器 指令 的 符号 表示 

1.1.20 [2] <1.1> 用 户 程序 和 硬件 之 间 的 接口 ， 能 提供 许多 服务 和 监视 功能 
1.1.21 [2] <1.1 > 用户 开发 的 软件 /程序 

1.1.22 [2] <1.1> 二 进 制 位 ( 值 为 0 或 1) 

1.1.23 [2] <1.1> 应 用 软件 和 硬件 之 间 的 软件 层 ， 包 括 操作 系统 和 编译 程序 
1.1.24 [2] <1.1 > 用 于 编写 应 用 程序 和 系统 软件 的 高 级 语言 

1.1.25 [2] <1.1 > 由 字 和 代数 符号 组 成 的 可 移植 语言 ， 在 计算 机 中 运行 前 必须 翻译 成 汇编 程序 
1.1.26 [2] <1.1>10"* 或 2% 字 节 


习题 1. 2 
上 和 工 [10] <1.3 > 一 个 彩色 显示 器 中 的 每 个 像素 由 三 种 基色 〈( 红 ， 绿 ， 蓝 ) 构成 ， 每 种 基色 用 8 位 表示 ， 


1 
1 
1 
1 
1 
1 
1 
1. 
1 
1 
1 
1 
1 
1 
1 


四 和 而 和 中 二 站 昌 醒 者 各 站 站 
里 而 
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分 辩 率 为 1280 x 800 像素 。 请 问 为 了 保存 一 帧 图 像 需要 多 大 的 缓存 (以 字 节 计算 )? 

1.2.2 [5] <1.3 > 如 果 一 台 计 算 机 有 一 个 2 GB 的 主 存 ， 并 且 该 主 存 没 有 存储 其 他 信息 ， 它 最 多 可 保存 多 少 
帧 图 像 ? z 

1.2.3 [5] <1.3 > 如 果 一 台 计 算 机 连 到 1 Gbps 以 太 网 上 ， 发 送 256 KB 的 文件 需要 多 长 时 间 ? 

1.2.4 [5] <1.3 > 假定 cache 比 DRAM 快 10 倍 ， DRAM 比 磁盘 快 100 000 倍 ， 闪 存 比 磁盘 快 1000 信 。 如 果 
从 cache 读 取 一 个 文件 需要 2 微 秒 ， 请 问 从 DRAM 、 磁 盘 和 闪存 读 取 需 要 多 长 时 间 ? 


习题 1.3 
有 3 种 不 同 的 处 理 器 P1 、P2 和 P3 执行 同样 的 指令 集 ， 其 时 钟 频 率 和 CPI 如 下 表 : 


eT 可 
可 1 
2 


1.3.1 [5] <1.4 > 哪个 处 理 器 性 能 最 高 ? 
1.3.2 [5] <1.4> 如 果 每 个 处 理 器 执行 一 个 程序 都 花费 10 秒 钟 时 间 ， 求 它们 的 时 钟 周 期 和 指令 数 。 
1.3.3 [10] <1.4 > 我 们 试图 把 时 间 减 少 30% ,但 这 会 引起 CPI 增加 20% 。 问 : 时 钟 频率 应 该 是 多 少 才能 
达到 时 间 减 少 30% 的 目的 ? 
以 下 的 习题 采用 下 表 的 信息 。 


ET 了 
0 
E 5 


1.3.4 110] <1.4> 求 每 个 处 理 器 的 IPC (每 周期 的 指令 数 )。 
1.3.5 [5] <1.4> 求 P2 的 时 钟 频 率 为 多 少 才能 将 其 执行 时 间 减 少 到 与 Pl 的 一 样 ? 
1.3.6 [5] <1.4> 求 P2 的 指令 数 为 多 少 才能 将 其 执行 时 间 减 少 到 与 P3 的 一 样 ? 


习题 1. 4 


同一 个 指令 集体 系 结构 有 2 种 不 同 的 实现 方式 。 有 A，B, C 和 D 4 类 指令 ， 每 种 实现 方式 的 时 钟 频 率 
和 CPI 由 下 表 给 定 。 


TT 
som | 1 | 2 


1.4.1 [10] <1.4> 给 定 一 个 程序 ， 有 106 条 指令 ， 按 如 下 比例 分 为 4 类 :; A 10%; B 20%; C 50%; D 
20% 。 问 哪 种 实现 方式 更 快 ? 

1.4.2 [5] <1.4> 每 种 实现 方式 总 的 CPI 是 多 少 ? 

1.4.3 [5] <1.4> 两 种 情况 下 的 时 钟 周期 各 是 多 少 ? 
下 表 所 示 为 某 一 程序 的 指令 数 。 


算术 总 数 
wo | 5 | ww | am 700 









CPI (D 类 ) 
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1.4.4 [5] <1.4> 假 定 算术 指令 用 时 1 个 周期 ， 存储 和 取 数 用 时 各 5 个 周期 ,分 支 用 时 2 周期 。 该 程序 在 
2 GHz 的 CPU 上 运行 ， 执行 时 间 是 多 少 ? 
1.4.5 『51<1.4> 求 该 程序 的 CPI 是 多 少 ? 
1.4.6 [10] <1.4 > 如果 取 数 指令 减少 一 半 ， 则 增 速 和 CPI 分 别 是 多 少 ? 
习题 1. 5 
有 2 种 不 同 的 实现 方式 Pl 和 P2， 具 有 同样 的 指令 集 ， 分 为 A，B，C，D 和 5 类。 每 类 的 时 钟 频率 和 


CPI 由 下 表 给 定 。 
CPI 
(D 类 ) 
4 





1.5.1 [5] <1.4> 假 定 将 一 台 计 算 机 执行 任何 指令 序列 所 能 达到 的 最 快速 率 定 义 为 峰值 性 能 。 求 P1 ，P2 
的 峰值 性 能 ， 单 位 为 每 秒 指令 数 。 

1.5.2 |5]<1.4> 如 果 在 某 个 程序 中 执行 的 指令 数 均等 地 分 布 于 除 A 类 以 外 的 各 类 指令 ，A 类 指令 数 是 其 
他 类 指令 数 的 2 倍 。 问 : 哪 台 计 算 机 速度 更 快 ? 快 多 少 ? 

1.5.3 [5] <1.4> 如 采 某 个 程序 中 执行 的 指令 数 均等 地 分 布 于 除 下 类 以 外 的 各 类 指令 ,EF 类 指令 数 是 其 他 
类 指令 数 的 2 倍 。 问 : 哪 台 计算 机 速度 更 快 ? 快 多 少 ? 


1. 5.4 [5] <1.4 > 假定 计算 指令 用 时 1 周期 ， 取 数 、 存 数 指令 用 时 10 周期 ,分支 指令 用 时 3 周期 求 : 每 
个 程序 在 一 台 3 GHz MIPS 处 理 器 上 运行 的 执行 时 间 。 

1.5.5 |5] <1.4 > 假定 计算 指令 用 时 1 周期 ， 取 数 、 存 数 指令 用 时 2 周期 ， 分支 指令 用 时 3 周期 , 求 :每 
个 程序 在 一 台 3 GHz MIPS 处 理 器 上 运行 的 执行 时 间 。 

1.5.6 .5j<14> 假 定 计算 指令 用 时 1 周期 ， 取 数 、 存 数 指令 用 时 10 周期 ,分 支 指 令 用 时 3 周期 ， 如 果 计 
算 指令 数 减 半 ， 求 程序 的 增 速 (speed-up)。 


习题 1.6 
编译 程序 对 一 个 应 用 在 给 定 的 处 理 器 上 的 性 能 有 极 深 的 影响 。 本 题 将 探究 编译 程序 对 执行 时 间 的 影响 。 


TI 
A 


1.6.1 [5] <1.4> 同样 的 程序 ， 采 用 2 个 不 同 的 编译 程序 。 上 表 表 示 了 不 同情 况 下 的 执行 时 间 。 求 . 在 给 
定 处 理 器 时 钟 周 期 为 1 ns 时 ， 每 个 程序 的 平均 CPI， 
1. 6.2 [5] <1.4 > 假定 平 均 CPI 就 是 上 题 求 得 的 值 ， 但 编译 程序 是 在 2 个 不 同 的 处 理 器 上 运行 的 。 如 果 这 2 
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个 处 理 器 的 执行 时 间 相 同 ， 求 运行 编译 程序 A 的 处 理 器 时 钟 相 对 于 运行 编译 程序 B 的 处 理 器 的 时 钟 
快 多 少 ? 
1.6.3 [5] <1.4 > 假设 开发 了 一 种 新 的 编译 程序 ， 只 用 6 亿 条 指令 ， 平均 CPI 为 1.1。 求 这 种 新 的 编译 程序 
相对 于 1.6. 1 题 中 编译 程序 A 和 B 的 加 速 比 。 
有 同一 指令 集 的 2 个 实现 方式 Pl 和 P2。 指 令 集 中 有 5 类 指令 (A，B，C，D，E) 。P1 的 时 钟 频率 为 4 
GHz，P2 的 时 钟 频率 为 6 GHz。 每 类 指令 相对 于 Pl 和 P2 的 平均 周期 数 见 下 表 。 





1.6.4 [5] <1.4 > 假定 将 一 人 台 计 算 机 执行 任何 指令 序列 所 能 达到 的 最 快 的 速率 定义 为 峰值 性 能 。 求 PI，P2 
的 峰值 性 能 ， 单 位 为 每 秒 指令 数 。 

1.6.5 [5] <1.4 > 如果 在 某 个 程序 中 执行 的 指令 数 均等 地 分 布 于 除 A 类 以 外 的 各 类 指令 ，A 类 指令 数 是 其 
他 类 指令 数 的 2 倍 。 求 P2 比 Pl 快 多 少 ? 

1.6.6 [5] <1.4 > 上 题 中 ，P2 的 频率 为 多 少时 ， 其 性 能 和 Pl 相同 ? 


习题 1.7 
下 表 表 示 28 年 来 Intel 公司 8 代 处 理 器 的 时 钟 频率 和 功 耗 的 增长 。 


处 理 器 功 厅 
80286 (1982) 3.3W 
80386 (1985) 4.1W 
80486 (1989) CO am 4.9W 
pe i 
Pentium Pro (1997) 29.1W 
Pentium 4 Willamette (2001) 75.3W 


Pain mo | om | 


Core 2 Ketsfield (2007) 95W 


1.7.1 [5] <1.5 > 分 别 求 出 相 邻 2 代 处 理 器 的 时 钟 频率 之 比 和 功 耗 之 比 的 几何 平均 值 。 

1.7.2 [5] <1.5> 分 别 求 出 不 同 两 代 间 的 处 理 器 的 时 钟 频率 和 功 耗 的 相对 变化 量 的 最 大 值 . 

1.7.3 [5] <1.5 > 分 别 求 出 最 后 一 代 处 理 器 比 第 一 代 处 理 器 在 时 钟 频率 和 功 耗 上 增长 的 倍数 。 
考虑 下 列 各 代 处 理 器 的 电压 值 。 


TT ETT 
TaET 到 
port 01993) 1 


1.7.4 [5] <1.5 > 假定 静态 功 耗 不 计 ， 求 平均 电容 负载 。 
1.7.5 [5] <15> 相 邻 哪 两 代 处 理 器 间 电 压 相对 变化 最 大 ? 
17.6 [5] <1.5> 求 从 Pentium 型 号 开始 的 不 同 代 处 理 器 间 的 电压 比 的 几何 平均 值 。 
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习题 1.8 
假设 我 们 开发 了 处 理 器 的 新 版 本 ， 其 特性 如 下 


Rt Tr 


1.8.1 [5] <1.5 > 如 果 两 版 之 间 动 态 功 耗 减少 了 10% ， 求 电容 负载 减少 了 多 少 ? 

1.8.2 [5] <1.5 > 如 有 果 电 容 负 载 不 变 ， 动 态 功 耗 减少 了 多 少 ? 

1.8.3 [5] <1.5 > 假定 第 2 版 的 电容 负载 是 第 1 版 的 80% ， 如 果 第 2 版 的 动态 功 耗 与 第 1 版 相 比 减少 了 
40% ， 求 第 2 版 的 电压 。 
假定 工业 发 展 趋势 显示 新 一 代 处 理 器 的 生产 比例 如 下 : 


本 IT 开 


1.8.4 [5」 <1.5 > 动态 功 耗 的 比例 因子 是 多 少 ? 
1.8.5S [5] <1.5 > 求 单位 面积 的 电容 的 比例 。 
1.8.6 [5] <1.5 > 用 1.7 题 的 数据 求 下 一 代 双 核 处 理 器 的 电压 和 时 钟 频率 。 


习题 1.9 


虽然 动态 功 耗 是 CMOS 功 耗 的 主要 组 成 部 分 ,但 漏电 流 还 是 会 产生 静态 功 耗 V x I 。 芯 片 尺 寸 越 小 ， 
静态 功 耗 越 重 要 。 下 表 设 定 了 若干 代 处 理 器 的 静态 和 动态 功 耗 的 数据 。 





1.9.1 [5j <1.5> 求 静态 功 耗 占 总 功 耗 的 百分比 。 
1.9.2 15]<1.5> 如 果 静 态 功 耗 取决 于 漏电 流 ， 求 每 种 工艺 的 漏电 流 。 
1.9.3 [5] <15> 求 每 种 工艺 的 静态 功 耗 与 动态 功 耗 之 比 。 

下 表 表 示 某 一 处 理 器 的 两 种 不 同 版 本 在 3 种 电压 下 的 动态 功 耗 。 





1.9.4 [5] <1.5 > 设 静态 与 动态 功 耗 之 比 为 0.6， 求 每 种 版 本 在 0.8 V 电压 时 的 静态 功 耗 。 

1.9.5 [| <1.5> 求 每 种 版 本 在 0.8 VY 电压 时 的 漏电 流 。 

1.9.6 [5] <1.5> 设 静态 与 动态 功 耗 之 比 为 1.7， 问 在 1.0Y 电压 和 1.2V 电压 两 种 情况 下 ， 哪 种 情况 的 况 
态 功 耗 更 大 ? 


习题 1. 10 


下 表 表 示 一 个 给 定 的 应 用 分 别 在 1，2，4，8 个 处 理 器 上 运行 时 指令 类 型 的 分 配 。 用 这 些 数据 ， 你 可 以 
探究 应 用 在 并 行 处 理 器 上 的 加 速 比 。 
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请 Tag | 入 

0 | 0 | 2 1 | | 

| | 0 | mm | 
2. 

一 

em | i | 2 | 1 | | 

0 | 0 | 0 | 1 | 

| 0 | 0 | mm | 1 | 6 | 3 
b. 

mm | em | « | 1 | » | 3 

CE CE wa 


1.10.1 [5] <1.4, 1.6 > 上 表 表 示 完 成 一 个 程序 运行 ， 每 个 处 理 器 执行 的 指令 数 。 每 个 处 理 器 执行 的 总 指 
令 数 是 多 少 ? 所 有 处 理 器 执行 的 总 指令 数 是 多 少 ? 

1.10.2 [5] <1.4, 1.6 > 上 表 的 右边 表示 CPI 值 ， 设 定 每 个 处 理 器 的 时 钟 频率 为 2 GHz。 求 这 个 程序 在 1， 
2,，4，38 台 处 理 器 上 运行 的 总 时 间 ? 

1.10.3 [10] <1.4，1.6 > 如果 计算 指令 的 CPE 增加 1 倍 ， 那 么 会 对 这 个 程序 在 1，2， 4，8 台 处 理 器 上 的 
执行 时 间 有 何 影响 ? 

下 表 表 示 一 个 多 核 处 理 器 的 每 处 理 器 核 数 ， 每 核 的 指令 数 ， 以 及 在 1，2，4，8 个 核 上 执行 程序 时 的 平 
均 CPI 值 。 用 这 些 数据 你 可 以 探究 多 核 处 理 器 的 加 速 比 。 


ET 


1.10.4 [10] <1.4，1.6 > 设 时 钟 频率 为 3 GHz， 用 1,， 2，4，8 个 核 时 ， 分 别 求 该 程序 的 执行 时 间 。 
1 10.s [10] <1.4，1.6> 设 一 个 处 理 器 核 的 功 耗 计算 公式 为 
功 耗 = (5.0 mA/MHz) x 电压 ? 
其 中 ,处理 器 的 工作 电压 的 计算 公式 为 
电压 = 频率 /5 +0.4 
其 中 ， 频 率 的 单位 为 GHz。 所 以 在 5 GHz 时 ， 电压 是 1.4 V。 设 每 个 核 工 作 在 3 GHz 的 时 钟 频率 ， 
求 该 程序 分 别 在 1，2，4，8 个 核 上 执行 时 的 功 耗 。 类 似 地 ， 求 核 工作 在 500 MHz 的 时 钟 频 率 时 程 
序 分 别 在 1，2， 4，8 个 核 上 执行 时 的 功 耗 ? 
1.10.6 [10] <1.4，1.6> 根 据 1.10.5 中 的 公式 ， 计 算 程序 在 3 GHz 和 500 MHz 的 时 钟 频 率 下 分 别 在 1，2， 
4，8 核 上 执行 时 消耗 的 能 量 。 


习题 1. 11 
下 表 所 示 为 两 种 处 理 器 的 制造 数据 。 


(cm ) 









价格 / 晶 圆 


瑕 疲 数 /单位 面积 〈cm2 ) 
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1.11.1 [10] <1.7 > 分 别 求 出 每 种 芯片 的 成 品 率 。 
1.11.2 [5] <1.7 > 分别 求 出 每 种 芯片 价格 。 
1.11.3 [10] <1.7 > 如 每 晶 圆 的 芯片 数 增加 10% ， 每 单位 面积 的 瑕 狂 数 增加 15% ， 求 芯片 面积 和 成 品 率 。 


假设 随 着 电子 器 件 制造 技术 的 进步 ， 成 品 率 变化 如 下 表 所 未 。 


不 


1.11.4 [10] <1.7 > 给 定 芯片 面积 为 200 mm”， 求 每 一 种 技术 下 单位 面积 的 瑕 竟 数 。 
1.11.5 [5] <1.7 > 用 图 表 表 示 成 品 率 和 单位 面积 的 瑕 六 数 的 变化 。 


习题 1. 12 
下 表 表 示 一 个 SPEC2006 基准 程序 在 AMD Barcelona 芯片 上 运行 的 结果 。 


指令 数 x 10 执行 时 间 (s) 参考 时 间 (s) 





1.12.1 [5] <1.7 > 如 时 钟 周 期 时 间 为 0.333 ns, 求 CPI 值 。 
1.12.2 [5] <1.7> 求 SPEC 的 比值 。 
1.12.3 [5] <1.7 > 求 这 两 个 基准 程序 的 几何 平均 值 。 


下 表 显 示 的 还 是 基准 程序 的 数据 。 
到 7E SPEC 


1.12.4 [5] <1.7 > 如 果 基 准 程序 的 指令 数 增 加 10% ，CPI 不 变 ， 求 CPU 时 间 增 加 多 少 ? 
1.12.5 [5] <1.7 > 如 果 基 准 程序 的 指令 数 增加 10% ，CPI 增加 $ 和 % ， 求 CPU 时 间 增 加 多 少 ? 
1.12.6 [5] <1.7 > 根据 上 上 题 中 指令 数 和 CPI 的 变化 ， 求 SPEC 比值 的 变化 。 
习题 1. 13 
假设 我 们 要 开发 AMD 处 理 器 的 4 GHz 的 新 版 本 。 我 们 在 指令 集中 增加 一 些 指令 ， 使 习题 1. 12 中 的 基 
准 程序 的 指令 数 减少 了 15% ， 得 到 的 执行 时 间 如 下 表 所 示 。 


执行 时 间 〈s) 参考 时 间 (s) SPEC 比 


1.13.1 [10] <1.8 > 求 新 的 CPI 值 。 
1.13.2 [10] <1.8 > 一 般 来 说 ， 新 的 CPI 大 于 前 面 同样 基准 程序 的 CPI， 这 主要 是 由 于 两 种 情况 的 时 钟 频 
率 不 同 ， 分 别 为 3 GHz 和 4 GHz。 试 回答 CPI 的 增长 与 时 钟 频率 的 增长 是 否 相似 ” 如 果 不 相 似 ， 请 


说 明 原 因 。 
1.13.3 [5] <1.8 > CPU 时 间 减 少 了 多 少 ? 
下 表 还 是 有 关 基 准 程序 的 数据 。 


和 时间 (5) 了 频率 (CHE) 


下 
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1.13.4 [10] <1.8 > 如 执行 时 间 再 减少 10% ，CPI 不 变 ， 时 钟 频 率 为 4GHz， 求 指令 数 。 
1.13.5 [10] <1.8> 要 使 CPU 时 间 再 减少 10% ， 时钟 频 率 应 为 多 少 ”( 指令 数 和 CPI 不 变 。) 
1.13.6 [10] <1.8 > 如果 CPI 减少 15% ，CPU 时 间 减 少 20% ， 指 令 数 不 变 ， 求 时 钟 频率 。 


习题 1. 14 


1.8 节 引 证 了 一 个 用 性 能 公式 的 一 个 子 集 去 计算 性 能 的 陷阱 。 为 了 说 明 它 ， 下 表 是 在 不 同 的 处 理 器 中 
执行 10 条 指令 序列 的 有 关 数 据 。 


处 理 器 时 钟 频率 CPI 


P2 3 CHz 0.75 


1.14.1 [5] <1.8 > 一 个 常见 的 错误 是 ,认为 时 钟 频率 最 高 的 计算 机 具有 最 高 的 性 能 。 这 种 说 法 正确 吗 ? 请 
用 Pl 和 P2 来 验证 这 一 说 法 。 
1.14.2 [10] <1. 8 > 另 一 个 错误 是 ， 认 为 执行 指令 最 多 的 处 理 器 需要 更 多 的 CPU 时 间 。 考 虑 P1 执行 105 
条 指令 序列 所 需 的 时 间 ，P1 和 P2 的 CPI 不 变 ， 计 算 一 下 P2 用 同样 的 时 间 可 以 执行 多 少 条 指令 ? 
1.14.3 [10] <1.8 > 一 个 常见 的 错误 是 用 MIPS 〈 每 秒 百 万 条 指令 )》 来 比较 2 台 不 同 的 处 理 器 的 性 能 ， 并 认 
为 MIPS 最 大 的 处 理 器 具有 最 高 的 性 能 。 这 种 说 法 正确 吗 ? 请 用 Pl 和 P2 验证 这 一 说 法 。 
刃 一 个 常见 的 性 能 标志 是 MFLOPS (每 秒 百 万 条 浮 点 指令 ) ， 其 定义 为 MFLOPS = 浮 点 操作 的 个 数 / 执 
行 时 间 x 10 。 它 与 MIPS 有 同样 的 问题 。 考 虑 下 表 所 示 的 程序 ， 在 时 钟 频率 为 3 GHz 的 处 理 器 上 运行 。 





1.14.4 [10] <1. 8 > 求 程序 的 MFLOPS 值 。 
1.14.5 [10] <1.8 > 求 程序 的 MIPS 值 。 
1. 14.6 [10] <1.8 > 求 程序 的 性 能 ， 并 与 MFLOPS 和 MIPS 值 作 比较 。 


习题 1. 15 


1.8 节 引 证 的 另 一 个 易 犯 的 错误 是 通过 只 改进 计算 机 的 一 个 方面 来 改进 计算 机 的 总 体 性 能 。 这 是 可 行 
的 , 但 并 不 总 是 可 行 。 下 表 表 示 一 台 计算 机 运行 程序 的 CPU 时 间 。 


WS 
| | am 


1. 15.1 [5] <1.8 > 如 浮 点 指令 减少 20% ， 总 时 间 将 减少 多 少 ? 
1.15.2 [5] <1.8 > 如 总 时 间 减 少 20% ， 整 数 指令 时 间 将 减少 多 少 ? 
1.15.3 [5] <1.8 > 如 只 减少 分 支 指令 时 间 ， 总 时 间 能 否 减 少 209% ? 
下 表 表 示 一 个 应 用 在 不 同 数目 的 处 理 器 中 运行 时 ， 每 个 处 理 器 的 不 同类 型 的 指令 数 分 布 。 







200 s 
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设 每 个 处 理 器 的 时 钟 频率 为 2 CHz。 
1.15.4 [10] <1.8 > 如 果 我 们 要 将 程序 运行 速度 提高 至 2 倍 ， 浮 点 指令 的 CPI 需 如 何 改进 ? 
1.15.5 [10] <1.8 > 如 果 我 们 要 将 程序 运行 速度 提高 至 2 倍 ， 读 写 指令 的 CPI 需 如 何 改 进 ? 
1.15.6 [5] <1.8 > 如 果 整 数 和 浮 点 指令 的 CPI 减少 40% ， 读 写 和 分 支 指令 的 CPI 减少 30% ， 程序 的 执行 


时 间 能 改进 多 少 ? 


习题 1. 16 


还 有 一 个 易 犯 的 错误 是 有 关 在 多 处 理 吕 系统 中 运行 ， 希 望 只 改进 一 部 分 例 行 程序 来 改进 整体 性 能 。 下 
表 表 示 某 个 程序 的 5 个 例 程 在 不 同 数目 处 理 器 中 的 执行 时 间 。 


处 理 器 数 。 | 例 程 A (mm) | 例 程 B (ms) | 例 程 C (ms) | 例 程 D (ms) | 
2 2 | 
| 
1.16.1 [10] <1.8 > 求 总 的 执行 时 间 。 如 果 例 程 A，C 和 玉 的 时 间 改 进 15% ， 总 的 执行 时 间 能 减少 多 少 ? 
1.16.2 [10] <1.8 > 如 果 例 程 B 的 时 间 改 进 10% ， 总 的 执行 时 间 能 减少 多 少 ? 
1.16.3 [10] <1.8 > 如 果 例 程 D 的 时 间 改 进 10% ， 总 的 执行 时 间 能 减少 多 少 ? 

多 处 理 器 系统 中 的 执行 时 间 可 分 成 例 程 计算 时 间 加 处 理 器 之 间 的 通信 时 间 。 下 表 给 出 了 例 程 计算 时 间 
和 通信 时 间 。 在 这 种 情况 下 ， 通 信 时 间 是 总 时 间 的 重要 组 成 部 分 。 


TT ET 
» | » | * | | 
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1.16.4 [10] <1.8> 每 当 处 理 器 数量 加 倍 时 ， 求 新 的 计算 时 间 与 日 的 计算 时 间 之 比 和 新 与 昌 的 通信 时间 
之 比 。 

1.16.5 [5] <1.8 > 用 比值 的 几何 平均 值 ， 推 算 在 128 台 处 理 器 的 系统 中 的 计算 时 间 和 通信 时 间 。 

1.16.6 [10] <1.8 > 求 在 1 个 处 理 器 系统 中 的 计算 时 间 和 通信 时 间 。 

小 测验 答案 

1.1 节 问题 讨论 : 可 以 有 多 种 答案 。 

上 3 节 盘 内 存 : 非 易 失 性 ， 访 问 时 间 长 (ms 级 ) ， 价 格 ( $0. 20 ~ $2.00)/CB。 半 导体 内 存 . 易 失 性 ， 
访问 时 间 短 (ns 级 ) ,价格 ( $20 ~ $75)/GCB。 

1.4.2 节 ”1) A: 两 者 ，B: 延迟 ，C: 都 不 改进 ; 2) 7 秒 。 

1.4.5 节  B。 

1.7.2 节 A、C 和 D 是 正确 理由 。 理 由 一般 可 认为 正确 ， 因 为 产量 高 时 能 促使 额外 投资 去 减 小 芯片 面 
积 ， 例 如 减 小 10% ， 这 是 一 种 经 济 决策 ， 但 并 不 总 是 正确 。 

1.8 书 1) 计算 机 A 有 和 较 高 的 MIPS 值 ; 2) 计算 机 B 更 快 。 
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指令 : 计算 机 的 语言 


我 对 上 帝 说 西班牙 语 ， 对 女人 说 意大利 语 ， 对 男人 说 法 语 ， 对 我 的 马 说 德语 。 
法 国 国王 查理 五 世 (1337 一 1380) 








计算 机 的 五 大 经 典 部 件 


2.1 引言 


要 计算 机 服从 指挥 ， 就 必须 用 计算 机 的 语言 。 计 算 机 语言 中 的 基本 单词 称 为 指令 ， 一 台 计 算 
机 的 全 部 指令 称 为 该 计算 机 的 指令 集 ” 。 本 章 将 展现 实际 计算 机 指令 集 的 两 种 形式 : 一 种 是 人 们 
编程 书写 的 形式 ， 男 一 种 是 计算 机 所 能 识别 的 形式 。 我 们 将 以 自 项 各 下 的 方式 来 介绍 。 从 看 似 受 
约束 的 汇编 语言 助 记 符 开 始 ， 逐 步 精炼 到 实际 计算 机 的 真实 语言 。 第 3 章 将 继续 采用 这 种 向 下 探 
究 的 方式 ， 揭 示 算 木 运算 的 硬件 以 及 浮 点 数 的 表示 方法 。 

尽管 机 屁 语 言 种 类 繁多 ,但 它们 之 间 十 分 类 似 ， 其 差异 性 更 像 人 类 语言 中 的 “方言 ”， 而 非 
各 上 自 独 立 的 语言 。 因 此 ， 理 解 了 一 种 机 器 语言 ， 其 他 的 也 就 容易 理解 了 。 这 种 相似 性 一 方面 是 因 
为 所 有 计算 机 都 是 基于 相似 基本 原理 的 硬件 技术 所 构建 的 ， 另 一 方面 是 因为 有 一 些 基本 操作 是 
所 有 计算 机 都 必须 提供 的 。 此 外 ， 计算 机 设计 者 有 一 个 共同 的 自 标 : 找到 一 种 语言 ， 可 方便 硬件 
和 编译 器 的 设计 ， 且 使 性 能 最 佳 、 成 本 和 功 耗 最 低 。 但 这 个 目标 需要 长 期 的 探索 。 下 述 引 文 写 于 


所 ”指令 集 (instruction set) :一 个 给 定 的 计算 机 体系 结构 所 包含 的 指令 集合 。 
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计算 机 出 现 不 久 的 1947 年 ， 但 今天 它 仍然 适用 : 

用 形式 逻辑 的 方法 可 以 很 容易 看 到 ， 在 理论 上 存在 着 某 种 [ 指令 集 ] 足以 控制 任何 的 操作 
序列 并 使 之 执行 …… 从 当前 的 观点 出 发 ， 在 选择 一 个 [ 指令 集 ] 时 ,真正 的 决定 性 因素 是 要 更 
多 地 考虑 其 实际 性 质 : |[ 指令 集 ] 要 求 的 设备 简单 性 ， 它 的 应 用 对 于 解决 实际 重要 问题 的 明确 性 
以 及 它 解决 该 类 问题 的 处 理 速度 。 

Burks 、Goldstine 和 冯 “. 诺 依 曼 (von Neumann) ，1947 

无 论 是 对 20 世纪 50 年 代 的 计算 机 而 言 ， 还 是 对 现代 的 计算 机 来 说 , “设备 简单 性 ”都 是 值 
得 考虑 的 重要 问题 。 本 章 的 目的 就 是 讲解 符合 此 原则 的 一 种 指令 集 ， 介 绍 它 怎样 用 硬件 表示 ， 以 
及 它 和 高 级 编程 语言 之 间 的 关系 。 我 们 的 示例 使 用 C 语言 编写 ， 光盘 上 的 2. 15 节 介 绍 了 在 使 用 
像 Java 这 样 的 面向 对 象 语言 时 会 有 什么 不 同 。 

通过 理解 如 何 表述 指令 ， 读 者 也 将 发 现 计算 的 秘密 ， 存储 程序 概念 =。 此 外 ， 通 过 使 用 机 器 
语言 编程 ， 并 在 本 书 提供 的 模拟 器 中 运行 ， 读 者 将 更 加 体会 到 编程 语言 和 编译 优化 对 程序 性 能 
的 影响 。 本 章 结束 时 我 们 将 简要 概括 指令 集 的 历史 发 展 和 其 他 的 计算 机 “方言 ”。 

本 章 所 选 指令 集 来 自 MIPS 公司 ， 它 是 20 世纪 80 年 代 以 来 出 现 的 各 类 指令 集 的 优秀 代表 之 
一 。 然 后 ， 我 们 将 简略 介绍 另外 两 个 常见 的 指令 集 。 一 个 是 ARM 指令 集 ， 它 与 MIPS 非常 相似 ， 
2008 年 ARM 处 理 器 在 散人 式 设 备 中 的 使 用 量 超过 了 30 亿 个 。 另 一 个 是 Intel x86 指令 集 ，2008 
年 所 销售 的 3.3 亿 台 PC 中 大 多 安装 了 Intel 处 理 器 。 

我 们 结合 计算 机 的 结构 ， 逐 步 讲解 MIPS 指令 集 。 采 用 自 顶 向 下 、 循 序 渐进 、 结 合 部 件 
及 其 说 明 的 方法 ， 尽 量 使 机 器 语言 变 得 不 再 枯燥 。 图 2-1 给 出 了 本 章 将 要 介绍 的 指令 集 的 
总 体 情况 。 


2.2 计算 机 硬件 的 操作 
毫 无 疑问 ， 必 须 有 执行 基本 算术 运算 操作 的 指令 。 
Burks 、Goldstine 和 冯 “， 诸 依 曼 ，1947 
任何 计算 机 必须 能 够 执行 算术 运算 。MIPS 汇编 语言 的 下 述 记 法 


add a,b,c 


表示 将 两 个 变量 b 和 c 相 加 ， 并 将 它们 的 和 放 人 变量 a 中 。 

这 种 记 法 的 表示 方式 是 固定 的 : 每 条 MIPS 算术 指令 只 执行 一 个 操作 ， 并 且 有 且 仅 有 三 个 变 
量 。 例 如 ， 若 要 将 变量 b、c ,de 之 和 放 入 变量 a 中 (本 节 不 深究 “变量 ” 的 含义 ,下 一 节 将 给 
出 其 详细 说 明 ) ， 下 面 的 指令 序列 将 完成 此 四 个 变量 的 相 加 ， 


add a,b,c # The sum of b and c is placed in a. 
add a,a,d # The sum of p,c,and d is now in a. 
add a,a,e # The sum of b,c,d,and e is now in a. 


可 知 , 使 用 3 条 指令 完成 了 4 个 变量 的 相 加 。 

上 述 代码 每 一 行 中 ,符号 “# 右边 的 是 注释 ， 用 于 帮助 人 们 理解 程序 ， 而 计算 机 将 忽略 它 
们 。 注 意 与 其 他 编程 语言 不 同 的 是 ， 这 种 语言 的 每 一 行 最 多 只 有 一 条 指令 。 另 一 个 与 C 语言 不 
同 的 是 ， 注 释 总 是 在 一 行 之 尾 结 束 。 


龟 ”存储 程序 概念 (stored- program concept) : 多 种 类 型 的 指令 和 数据 均 以 数字 形式 存储 于 存储 器 中 的 概念 ， 存储 程 
序 型 计算 机 即 源 于 此 。 


44 .第 2 章 指令 ; 计算 机 的 语言 


$s0 ~ $s7, $t0 - $t9, $2zero, 


| $a0 ~ $a3, $v0 - $v1, $gp, $fp, 


3 
$sp, $ra, $at 


Memory [0], Memory 14]，…， 
Memory [4294967292 | 


2 ”个 存储 器 字 








取 无 符号 半 字 lhu $s]l,20 ($s2) 





取 lb $s1,20 ($s2) 


取 无 符号 字 节 


数 
据 
传 
输 


逻 
辑 


字 节 sh $sl,20 ($s2) 


下 


取 链 接 字 


存 条 件 字 


sc $s1l,20 ($s2) 


取 立 即 数 的 高 位 


or $s1,$s2,$s3 


E 


立即 数 与 
立即 数 或 
边 和 辑 左 移 
逻辑 右 移 


nor $sl,$s2, $s3 


andi $si,$s2,20 
Gri $sli, $s2,20 
sll $sl, $s2,10 


i 


图 2-1 





MIPS 汇编 语言 


$sl = $s2 +20 


$sl = Memory[ $s2 +20 ] 
取 半 字 lh $s1,20 ($s2) $s1 = Memory[ $s2 +20] 


存 半 字 sh $sl,20($s2) Memory[ $s2 +20] = $s 
字 节 
lbu $s1,20 ($s2) | $s1 = Memory[ $s2 +20] 


11 $sl,20 ($s2) $s1 = Memory[ $s2 +20] 


and $sl, $s2,$s3 $sl = $s2 & $s3 


$sl= ~( $s2 | $s3) 


$s1 = $s2 &20 


本 章 要 讲解 的 MIPS 汇编 语言 


寄存 器 用 于 数据 的 快速 存 取 。 在 MIPS 中 ， 只 能 
对 存放 在 寄存 器 中 的 数 执行 算术 操作 ， 寄 存 器 
$zero 的 值 便 为 0， 寄 存 器 $at 被 汇编 器 保留 ， 用 
于 处 理 大 的 常数 。 

存储 器 只 能 通过 数据 传输 指令 访问 。MIPS 使 用 字 


节 编 址 ， 所 以 连续 的 字 地 址 相差 4。 存 储 器 用 于 保 
存 数 据 结 构 、 数 组 和 溢出 的 寄存 器 。 










三 个 寄存 器 操作 数 
三 个 寄存 器 操作 数 
加 常数 


将 一 个 字 从 内 存 中 取 
到 寄存 器 中 

将 一 个 字 从 寄存 器 中 
取 到 内 存 中 


将 半 个 字 从 内 存 中 取 
到 寄存 器 中 


将 半 个 字 从 内 存 中 取 
到 寄存 器 中 
将 半 个 字 从 寄存 器 存 
到 内 存 中 





$sl = Memory| $s2 +20 


] 
1 


= Memo eg 
将 一 个 字 节 从 内 存 取 
到 寄存 器 中 
将 一 个 字 节 从 寄存 器 
Memory[ $s2 +20] = $sl 存 到 内 存 中 


取 字 作为 原子 交换 的 
半 部 


取 字 作 为 原子 交换 的 
后 半 部 分 


取 立 即 数 并 放 到 高 
16 位 


三 个 寄存 器 操作 数 按 
与 


三 个 寄存 器 操作 数 按 
或 


三 个 寄存 器 操作 数 按 
位 或 非 


和 常数 按 位 与 。 
和 常数 按 位 或 

$s1 = $52 <<10 根据 常数 左 移 相 应 位 
根据 常数 右 移 相 应 位 


前 


Memory| $s2 +0] = $s1; 
$sl =0 or1 


位 


$s1 = $s21 8$s3 


位 


$sTI = $s2 | 20 
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ER 


if( $sl == $s2) 8goto 相等 检测 
beq $s1, $s2 ,25 PC +4+100 和 PC 相关 的 跳 转 
if( $sl! = $s2) go to 不 相等 检测 
slt $sl, ff $s2 < $s3) $sl =1; 比较 是 否 小 于 ; beq,， 
人 $52, $s3 else $sl =0 
fy 四 | 人 
置 位 $s3 else $sl1 =0 
无 符号 数 比较 小 于 立 | ，. if( $s2 <20) $sl = 1; 
无 符号 数 比 较 小 于 无 g if( $s2 <20) $s1 =1; 比较 是 否 小 于 无 符号 
符号 立即 数 时 置 位 sltiu $sl, $s2 ,20 else gsl -0 党 数 


j 2500 go to 1 0000 跳 转 到 目标 地 址 


8 oto 用 于 switch 语句 ， 以 及 过 
jr ra 名 ra 程 调 用 


用 了 对 入 两 有 


图 2-1 ( 续 ) 
这 个 信息 也 可 以 在 文 前 的 MIPS 参考 数据 的 第 1 列 中 找到 。 

与 加 法 类 似 的 指令 一 般 都 有 三 个 操作 数 : 两 个 进行 运算 的 数 和 一 个 保存 结果 的 数 。 要 求 每 
条 指令 有 且 仅 有 三 个 操作 数 ， 符 合 硬件 简单 性 的 设计 原则 : 操作 数 个 数 可 变 将 给 硬件 设计 带 来 
更 大 的 复杂 性 。 这 种 情况 说 明了 硬件 设计 四 条 基本 原则 的 第 一 条 : 

设计 原则 1: 简单 源 于 规整 。 

下 面 的 2 个 示例 程序 展示 了 用 高 级 编程 语言 编写 的 程序 和 用 汇编 语言 编写 的 程序 之 间 的 
关系 。 
EE 允 ”把 C 语言 中 两 条 赋值 语句 编译 成 MIPS 

本 例 中 C 程序 包含 5 个 变量 ,a、b、c.d 和 e。 因 为 Java 语言 演化 自 C 语言 ， 所 以 本 例 及 以 后 
若干 例子 对 这 两 种 高 级 语言 均 适用 : 

a=b+t+c; 

d=a-e; 

C 程序 转换 为 MIPS 汇编 指令 是 由 编译 器 完成 的 。 写 出 由 编译 器 生成 的 MIPS 代码 。 
国 沼 一 条 MIPS 指令 对 来 自 两 个 源 操作 数 寄存 器 的 操作 数 进行 运算 ， 并 将 结果 存 入 目的 寄存 
融 。 因 此 上 面 两 条 简单 的 C 语句 可 直接 编译 为 如 下 两 条 MIPS 汇编 指令 ， 


add a,b,c 
SUP d,a,e 


若 列 把 C 语言 中 一 条 复杂 的 赋值 语句 编译 成 MIPS 
下 面 一 行 复杂 的 C 语句 包含 5 个 变量 fg.h.i 和 j: 
f= (g+h) - (i +j); 
C 编译 器 将 产生 什么 样 的 MIPS 汇编 语言 代码 ? 
国 结 ”因为 一 条 MIPS 指令 仅 执行 一 个 操作 ， 所 以 编译 器 必须 将 这 条 C 语句 编译 成 多 条 汇编 指 






| 
测 ， 






人 首 汪 证 洲 
























跳 转 至 寄存 器 所 指 
位 置 
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令 。 若 第 一 条 指令 计算 g 与 h 的 和 ， 其 结果 必须 暂 存 在 一 个 地 方 。 因 此 ， 编 译 器 需 创 建 一 个 临 
时 变量 t0: 

add t0,g,h # temporary variable t0 contains g+h 

下 一 个 操作 是 减法 ， 在 做 减法 操作 之 前 ， 必 须 先 计算 出 工 与 了 的 和 。 因 此 ， 第 二 条 指令 将 
i、j 之 和 存 于 由 编译 器 创建 的 为 一 个 临时 变量 t1 中 : 

add t1,i,j # temporary variable tl contains i+j 

最 后 ， 用 一 条 减法 指令 将 两 个 临时 变量 中 的 值 相 减 ， 结 果 存 入 变量 f， 完 成 编译 : 


sub f,tO,tL #E£ gets tO0O~ tl1, which is(g+h) - {i+j) 


对 于 一 个 给 定 的 功能 ， 用 下 列 哪 种 编程 语言 实现 可 能 花费 的 代码 行 数 最 多 ? 将 下 面 3 种 语言 排序 ， 

A. Java 

B.C 

C. MIPS 汇编 语言 

精 解 : 为 了 增强 可 移植 性 ，Java 最 初 被 设 定 为 依靠 软件 解释 器 执行 的 语言 。 解 释 器 的 指令 集 被 称 作 
Java 字 节 人 码 (Java bytecode) (参见 光盘 上 2.15 小 节 ) ， 它 与 MIPS 指令 集 有 很 大 的 不 同 。 为 使 性 能 与 等 效 功 
能 的 C 程序 接近 ，Java 系统 现在 的 典型 做 法 是 将 字 节 码 编译 成 类 似 MIPS 这 样 的 机 器 指令 。 因 为 通常 Java 
编译 过 程 比 C 靠 后 ， 所 以 Java 编译 器 常 被 称 为 即时 编译 器 (Just In Time，JIT) 。2. 12 节 展 示 了 在 程序 启动 
阶段 IT 是 如 和 何 迟 于 C 编译 器 的 ，2. 13 节 展 示 了 Java 程序 的 编译 执行 和 解释 执行 的 性 能 比较 。 


2.3 计算 机 硬件 的 操作 数 

个 同 于 高 级 语言 程序 ， 算 术 运 算 指令 的 操作 数 是 受 限 的 ， 它 们 必须 来 自 寄存 器 。 寄 存 器 由 硬 
件 直 接 构建 ， 数 量 有 限 ， 是 计算 机 硬件 设计 的 基本 元 素 。 当 计算 机 设计 完成 后 ， 寄 存 器 对 程序 员 
是 可 更 的 。 所 以 也 可 以 把 寄存 器 想象 成 构造 计算 机 “建筑 ”的 “ 砖 块 "。 在 MIPS 体系 结构 中 寄 
存 器 大 小 为 32 位 ; 由 于 32 位 为 一 组 的 情况 经 常 出 现 ， 因 此 在 MIPS 体系 结构 中 将 其 称 为 
“ 字 ”” 。 

高 级 语言 的 变量 与 寄存 器 的 一 个 主要 区 别 在 于 寄存 器 的 数量 有 限 。 典 型 的 现代 计算 机 如 
MIPS 中 有 32 个 寄存 器 。( 参 见 光 盘 上 2. 20 节 有 关 寄 存 器 数目 的 演变 历史 ) 。 下 面 继续 以 自 顶 向 
下 的 方式 引入 新 的 MIPS 语言 的 符号 表示 。 在 本 节 中 MIPS 算术 指令 的 三 个 操作 数 限定 为 必须 从 
32 个 32 位 寄存 器 中 选取 。 

寄存 器 个 数 限制 为 32 个 的 理由 可 以 表示 为 硬件 设计 四 条 基本 原则 中 的 第 二 条 

设计 原则 2: 越 少 越 快 。 

大 量 的 寄存 器 可 能 会 使 时 钟 周期 变 长 ， 因 为 需要 更 远 的 电信 号 传输 距离 。 

当然 ， 该 原则 也 不 是 绝对 的 ，31 个 寄存 器 不 见得 比 32 个 更 快 。 但 表象 背后 的 物理 事实 值得 计算 
机 设计 者 认真 对 待 。 在 这 种 情况 下 ,设计 者 必须 在 程序 期 痕 更 多 寄存 器 和 加 快 时 钟 周期 之 间 进 行 权 衡 。 
太一 个 不 使 用 多 于 32 个 寄存 器 的 原因 是 受 指令 格式 位 数 的 限制 ，2. 5 节 有 相应 介绍 。 

第 4 章 论证 了 寄存 器 在 硬件 结构 中 所 扮演 的 核心 角色 。 正 如 该 章 所 述 ， 有 效 利用 寄存 器 对 于 
提高 程序 性 能 极为 重要 。 

仿 管 可 以 简单 使 用 序号 0 到 31 表示 相应 的 寄存 器 ， 但 MIPS 约定 书写 指令 时 ， 用 一 个 “$” 
符 后 面 跟 两 个 字符 来 代表 一 个 寄存 器 。2. 8 节 将 解释 这 一 做 法 的 理由 。 现 在 ， 我 们 使 用 $ s0， 





日。 字 (word): 计算 机 中 的 基本 访问 单位 ， 通 常 是 32 位 为 一 组 ， 在 MIPS 体系 结构 中 与 寄存 器 大 小 相同 。 
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$s1……' 来 代表 与 C 和 Java 程序 中 的 变量 所 对 应 的 寄存 器; 用 $t0,$ti….… 来 代表 将 程序 编译 
为 MIPS 指令 时 所 需 的 临时 寄存 做 。 
使 用 寄存 器 编译 C 赋值 语句 

将 程序 变量 和 寄存 器 对 应 起 来 是 编译 器 的 工作 。 以 我 们 前 面 讲 过 的 C 赋值 语句 为 例 : 

f= (g+h) - (i+jJ); 

变量 fg 和 和 依次 分 配给 寄存 器 $s0、$si、$s2、$s3 和 $s4。 求 编译 后 的 MIPS 代码 。 
条 除了 将 变量 用 上 述 寄存 器 代替 ， 将 两 个 临时 变量 用 $to 和 $t1l 代替 外 ， 编 译 后 生成 的 代 
码 与 前 面 例题 中 的 代码 非常 相似 : 


add $t0, $sl, $s2 #register $t0 contains 9 +h 
add $tl1,$s3,$s4 #register $t1 contains i + 
sub $s0, $t0, $t1 #fgets $+t0 - $t1, which is (lg + h) - (i + J) 


2. 3. 1 存储 器 操作 数 


编程 语言 中 ， 有 像 上 面 这 些 例 题 中 仅 含 一 个 数据 元 素 的 简单 变量 ， 也 有 像 数 组 或 结构 那样 
的 复杂 数据 结构 。 这 些 复 杂 数 据 结构 中 的 数据 元 素 可 能 远 多 于 计算 机 中 寄存 器 的 个 数 。 计 算 机 
怎样 来 表示 和 访问 这 样 的 结构 呢 ? 

回忆 一 下 第 1 章 和 本 章 首页 图 片 所 描述 的 计算 机 的 五 个 组 成 部 分 。 处 理 器 只 能 将 少量 数据 保 
存在 寄存 器 中 ， 但 存储 器 有 数 十 亿 的 数据 元 素 。 因 此 ， 复 杂 数 据 结构 ( 如 数组 和 结构 ) 是 存放 
在 存储 器 中 的 。 

如 上 所 述 ，MIPS 的 算术 运算 只 对 寄存 器 进行 操作 ， 因 此 ，MIPS 必须 包含 在 存储 器 和 寄存 器 
之 间 传 送 数据 的 指令 。 这 些 指令 叫做 数据 传送 指令 9。 为 了 访问 存储 器 中 的 一 个 字 ， 指 令 必 须 给 
出 存储 器 地 址 ” 。 存 储 器 就 是 一 个 很 大 的 下 标 从 0 开始 的 一 维 数组 ， 地 址 就 相当 于 数组 的 下 标 。 
例如 ， 在 图 2-2 中 ， 第 三 个 数据 元 素 的 地 址 为 2， 存 放 的 值 为 10。 

将 数据 从 存储 器 拷贝 到 寄存 器 的 数据 传送 指令 ， 通 常 叫 取 数 指令 〈]load) 。 取 数 指令 的 格式 
是 操作 码 后 接着 目标 寄存 器 ， 再 后 面 是 用 来 访问 存储 器 的 常数 和 寄存 器 。 常 数 和 第 二 个 寄存 器 
中 的 值 相 加 即 得 存储 器 地 址 。 实 际 的 MIPS 取 数 指令 助 记 符 为 Iw， 为 load word 的 缩写 。 
编译 一 个 操作 数 在 存储 器 中 的 C 赋值 语 各 

设 & 是 一 个 含有 100 个 字 的 数组 ， 像 前 面 的 例题 一 样 ， 编 译 器 仍然 将 寄存 右 $s1、$s2 依 
次 分 配给 变量 g、h。 又 设 数组 A 的 起 始 地 址 ， 或 称 基 址 (base address) ， 存 放 在 寄存 器 $s3 中 。 
试 编 译 下 面 的 C 赋值 语 各 ， 


g=h+Al8|: 


虽然 该 C 赋值 语句 只 有 一 个 操作 ， 但 其 中 一 个 操作 数 在 存储 器 中 ， 所 以 首先 必须 将 A[ 8] 
传送 到 寄存 器 。 其 地 址 是 $s3 中 的 基 址 加 上 该 元 素 序号 8。 取 回 的 数据 应 放 在 一 个 临时 寄存 器 中 
以 便 下 条 指令 使 用 。 由 图 2-2 可 知 ， 第 一 条 编译 后 生成 的 指令 为 

lw $$t0,8 ($s3) #Temporary reg $t0 gets A[8] 

(这 里 是 一 种 简化 版 措 述 ， 后 面 会 对 这 条 指令 做 相关 的 微调 。) 因为 A [8] 已 取 到 寄存 器 
$t0 中 ， 下 一 条 指令 就 可 对 $t0 进行 操作 。 该 指令 将 h (在 $s2 中 ) 加 上 A[8] (在 $to 中 )， 


名 数据 传送 指令 (data transfer instruction ) : 在 存储 器 和 寄存 器 之 问 移动 数据 的 命令 
所 ”地址 (address): 用 于 在 存储 器 空间 中 指明 特定 数据 元 素 位 置 的 值 。 
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并 将 结果 放 到 对 应 于 g 的 寄存 器 $sl 中 ; 
add $sl,$s2, $t0 #9g=h+A[8] 
数据 传送 指令 中 的 常量 (本 例 中 为 8) 称 为 偏 移 量 (offset)， 存 放 基 址 的 寄存 器 (本 例 中 为 


$s3) 称 为 基 址 寄存 器 (base register)。 

除了 将 变量 与 寄存 器 对 应 起 来 ， 编 译 器 还 在 存储 器 中 为 诸如 数组 和 结构 这 样 的 数据 结构 分 
配 相应 的 位 置 。 然 后 ， 编 译 器 可 以 将 它们 在 存储 器 中 的 起 始 地 址 放 到 数据 传送 指令 中 。 

很 多 程序 都 用 到 字 节 类 型 ， 且 大 多 数 体系 结构 按 字 节 编 址 。 因 此 ， 一 个 字 的 地 址 必 和 它 所 包 
括 的 四 个 字 节 中 某 个 的 地 址 相 匹配 ， 且 连续 字 的 地 址 相差 4。 例 如 ， 图 2-3 给 出 了 图 2-2 的 实际 
MIPS 地 址 ， 其 中 第 三 个 字 的 字 节 地 址 是 8。 


; [0 2 | 
2 | s | 0 
| Lo 4 
LT 0 
地 址 数据 字 节 地 址 数据 
处 理 器 存储 器 处 理 器 存储 器 
| | L | 
图 2-2 存储 器 地 址 和 该 地 址 对 应 的 数据 图 2-3 实际 的 MIPS 存储 器 地 址 和 
如 果 这 些 元 素 是 字 ， 那么 这 些 地 址 就 是 错误 的 ， 因 为 该 地 址 对 应 的 数据 
MIPS 实际 上 是 按 字 节 编 址 的 ， 而 一 个 字 是 4 个 字 节 。 因为 MIPS 是 按 字 节 编 址 的 ， 所 以 字 的 地 址 是 4 的 倍 
图 2-3 给 出 了 顺序 字 编 址 的 内 存 寻 址 。 ” 数 ; 一 个 字 有 4 个 字 节 。 


在 MIPS 中 ， 字 的 起 始 地 址 必须 是 4 的 倍数 。 这 叫 对 齐 限 制 2 ， 许多 体系 结构 都 有 这 样 的 限 
制 (第 4 章 说 明了 地 址 对 齐 能 加 快 数据 传送 的 理由 )。 

有 两 种 类 型 的 字 节 寻 址 的 计算 机 : 一 种 使 用 最 左边 或 “大 端 ” (big end) 字 节 的 地 址 作为 字 
地 址 ; 务 一 种 使 用 最 右边 或 “小 端 ” (little end) 字 节 的 地 址 作为 字 地 址 。MIPS 采用 大 端 编 址 
(big-endian)。( 附 录 B 中 给 出 了 在 一 个 字 中 对 字 节 进行 记 数 的 两 种 方法 。) 

字 节 和 寻 址 也 影响 到 数组 下 标 。 在 上 面 的 代码 中 ， 为 了 得 到 正确 的 字 节 地 址 ， 与 基 址 寄存 器 
$s3 相 加 的 偏 移 量 必须 是 4x8， 即 32， 这 样 才能 正确 读 到 A[8] ， 而 不 会 错 读 到 R[8/4]。( 参 
见 2.18 节 中 相关 陷阱 介绍 。) 

与 取 数 指令 相对 应 的 指令 通常 叫做 存 数 指令 (store) ; 它 将 数据 从 寄存 器 拷贝 到 存储 器 。 存 
数 指令 的 格式 和 取 数 指令 相似 : 操作 码 ， 接 着 是 包含 待 存储 数据 的 寄存 器 ， 然后 是 选择 数组 元 素 
的 篇 移 量 ， 最 后 是 基 址 寄存 器 。 同 样 ，MIPS 地 址 由 常数 和 基 址 寄存 器 内 容 共 同 决定 。 实 际 的 
MIPS 存 数 指令 的 名 字 为 sw, 为 store word 的 缩写 。 

用 取 数 / 存 数 指令 进行 编译 
假设 变量 h 存放 在 寄存 器 $s2 中 ， 数组 A 的 基 址 放 在 $s3 中 。 试 编 译 下 面 的 C 赋值 语句 . 


A[12] =n+aA[8]; 


虽然 该 C 语句 只 有 一 个 操作 ， 但 是 有 两 个 操作 数 在 存储 器 中 ， 因 此 ， 需 要 更 多 的 MIPS 
指令 。 前 两 条 指令 基本 上 与 上 个 例题 相同 ， 除 了 本 例 在 取 数 指令 中 选择 R[8] 时 使 用 了 字 节 寻 址 


名 ”对 齐 限制 (alignment restriction ) : 数据 地 址 与 存储 器 的 自然 边界 对 齐 的 要 求 。 
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中 正确 的 偏 移 量 ， 并 且 加 法 指令 将 结果 放 在 临时 寄存 器 $t0 中 : 


1w $t0,32 ($s3) # Temporary reqg $t0 gets A[8] 
add $$t0,$s2, $t0 #Temporary reg $t0 gets h+A[8] 


最 后 一 条 指令 使 用 48 (4x12) 作为 偏 移 量 ,寄存 器 $s3 作为 基 址 寄存 器 ， 将 加 法 结果 存放 
到 存储 器 单元 A[12j] 中 。 


Sw $t0,48 ($s3) #5Stores n+A[8|]back into A[12|] 


lw 和 sw 是 MIPS 体系 结构 中 在 存储 器 和 寄存 器 之 间 拷 贝 字 的 指令 。 其 他 计算 机 有 各 自 相 应 
的 取 数 / 存 数 指令 来 传送 数据 。Intel x86 体系 结构 中 类 似 的 指令 见 2. 17 节 。 

许多 程序 的 变量 个 数 要 远 多 于 计算 机 的 寄存 器 个 数 。 因 此 ， 编 译 器 会 尽量 将 最 常用 的 变量 
保持 在 寄存 器 中 ， 而 将 其 他 的 变量 放 在 存储 器 中 ， 方 法 是 使 用 取 数 / 存 数 指令 在 寄存 器 和 存储 器 
之 间 传 送 变 量 。 将 不 常 使 用 的 变量 (或 稍 后 才 使 用 的 变量 ) 存 回 到 存储 器 中 的 过 程 叫 做 寄存 器 
洲 出 (spilling register) 。 

根据 硬件 设计 原则 2， 存 储 器 一 定 比 寄存 器 慢 ， 因 为 寄存 器 数量 更 少 。 事 实 的 确 如 此 ， 访 问 
寄存 器 中 的 数据 要 远 快 于 访问 存储 器 中 的 数据 。 

为 外 ， 上 寄存器 中 的 数据 更 容易 利用 。 一 条 MIPS 算术 运算 指令 能 完成 读 两 个 寄存 器 、 对 它们 
进行 运算 、 并 写 回 运算 结果 的 操作 。 而 一 条 MIPS 数据 传送 指令 只 能 完成 读 一 个 操作 数 或 写 一 个 
操作 数 的 操作 ， 并 且 不 能 对 它们 进行 运算 。 

寄存 器 与 存储 器 相 比 ， 访 问 时 间 短 、 吞 吐 率 高 ， 寄 存 器 中 的 数据 访问 速度 快 并 易于 利用 ， 访 
问 寄 存 器 相对 于 访问 存储 颖 功 耗 更 小 。 因 此 ， 为 了 获得 高 性 能 和 节约 功 耗 ， 编 译 器 必须 高 效率 地 
利用 寄存 器 。 


2. 3.2 常数 或 立即 数 操作 数 


程序 中 经 常会 在 某 个 操作 中 使 用 到 常数 一 一 例如 ， 将 数组 的 下 标 加 1， 用 以 指向 下 一 个 数组 
元 素 。 实 际 上 ， 在 运行 SPEC2006 测试 基准 程序 集 时 ， 有 超过 一 半 的 MIPS 算术 运算 指令 会 用 到 
常数 作为 操作 数 。 

仅 从 已 介绍 过 的 指令 看 ， 如 果 要 使 用 常数 必须 先 将 其 从 存储 器 中 取出 。 (常数 可 能 是 在 程序 
馈 加 载 时 放 人 存储 器 的 。) 例如 ， 要 使 寄存 器 $s3 加 4， 可 以 使 用 下 面 的 代码 ， 

lw $t0,AddrConstant4 ($si} # $t0=constant 4 

add $s3,$s3, $t0 # $s3= $s3+ $t0 ($t0 ==4) 

假设 $sl +AddrConstant4 是 常量 4 的 存储 器 地 址 。 

避免 使 用 取 数 指令 的 另 一 方法 是 ,提供 其 中 一 个 操作 数 是 常数 的 算术 运算 指令 。 这 种 有 一 个 
常数 操作 数 的 快速 加 法 指令 叫做 加 立即 数 (add immediate ) ,或 者 写成 adai 这 样 ， 上 述 操作 只 需 
写成 : 


addi $s3, $s3 ,4 # $s3 = $s3+4d 


带 有 立即 数 的 指令 说 明了 硬件 设计 四 条 原则 的 第 三 条 ， 这 一 原则 在 第 1 章 的 “ 雇 误 与 陷阱 ” 
中 曾 提 到 过 。 

设计 原则 3; 加 速 执行 常用 操作 。 

常数 操作 数 出 现 频率 高 ， 而 且 相 对 于 从 存储 器 中 取 常 数 ， 包含 常数 的 算术 运算 指令 执行 速 
度 快 很 多 ， 并 且 能 耗 较 低 。 
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常数 0 还 有 另外 的 作用 ， 有 效 使 用 它 可 以 简化 指令 集 。 例 如 ， 数 据 传送 指令 正好 可 以 被 视 作 
一 个 操作 数 为 0 的 加 法 。 因 此 ，MIPS 将 寄存 器 $zero 恒 置 为 0。( 此 寄存 器 编导 也 为 0。) 

根据 寄存 器 的 重要 性 ， 芯 片 中 寄存 器 数目 随时 间 的 增长 率 符合 下 面 哪 种 情况 ? 

A. 非常 快 : 像 摩尔 定律 一 样 快 ， 该 定律 预测 ， 芯 片上 的 晶体 管 数 目 每 18 个 月 翻 一 番 。 

B. 非常 慢 : 由 于 程序 是 通过 计算 机 语言 实现 的 ， 而 指令 集体 系 结构 具有 惯性 ， 因 此 寄存 器 数目 的 增长 

要 与 新 指令 集 的 可 行 性 保持 一 致 。 

精 解 : 虽然 本 书 中 讲 到 的 MIPS 寄存 器 都 是 32 位 的 ， 但 是 也 有 64 位 版 本 的 MIPS 指令 集 ， 它 具有 32 个 
64 位 的 寄存 器 。 为 了 加 以 区 分 ， 分 别 将 它们 称 为 MIPS-32 和 MIPS-64。 在 本 章 中 ， 我 们 使 用 MIPS-32 的 子 
集 。 附 录 玉 《( 见 光盘 ) 中 介绍 了 MIPS-32 和 MIPS-64 的 区 别 。 

MIPS 中 偶 移 量 加 基 址 寄存 器 的 寻 址 方式 非常 适合 数组 和 结构 ， 因 为 基 址 寄存 器 可 指向 结 梅 的 首 地 址 ， 
偏 移 量 可 用 于 选择 所 需 的 数据 元 素 。 在 2. 13 节 中 我 们 将 看 到 这 样 的 例子 。 

最 初 设计 数据 传送 指令 时 ， 基 址 寄存 器 用 于 保存 数组 下 标 ， 而 偏 移 量 用 来 标示 数组 的 起 始 地 址 。 因 而 
基 址 寄存 器 也 叫做 下 标 寄 存 器 (index register) 。 现 在 ， 存 储 器 容量 大 大 增加 ， 数 据 分 配 的 软件 模型 也 更 为 
复杂 ， 所 以 数组 的 基地 址 通常 放 在 寄存 器 中 。 如 同 下 面 将 要 看 到 的 那样 ， 基 地 址 可 能 由 于 过 大 而 不 适宜 用 
偏 移 量 表示 。 

由 于 MIPS 支持 负 常 数 ， 所 以 MIPS 中 不 需要 设置 减 立 即 数 的 指 今 。 


<.4 有 符号 和 无 符号 数 

冯 先 让 我 们 快速 回顾 一 下 计算 机 是 如 何 表 示 数 的 。 人 类 所 受 的 教育 是 以 十 进 制 为 基础 的 ， 
但 数 的 进 制 可 以 是 任意 的 。 例 如 ， 十 进 制 的 123 等 于 二 进 制 的 1111011。 

在 计算 机 硬件 中 数 是 以 一 串 或 高 或 低 的 电信 和 号 来 体现 的 ， 这 恰好 可 以 被 认为 是 二 进 制 数 。 
所 有 的 信息 都 由 二 进 制 数位 ” (binary digit) 或 位 (bit) 组 成 ， 因 此 二 进 制 数 运算 基本 单位 是 
bit， 取 值 可 以 是 两 种 状态 之 一 : 高 或 低 ， 开 或 关 ， 真 或 假 ，1 或 0。 

推广 到 任意 进 制 , 第 i 位 a 的 值 是 

d x Base’ 

这 里 ,i 是 从 0 开始 并 且 从 右 向 左 递增 。 因 此 一 种 明显 的 计算 一 个 数 各 位 数值 的 方法 是 使 用 宪 。 
我 们 在 十 进 制 数 的 右 下 角 写 上 10， 在 二 进 制 数 的 右 下 角 写 上 2。 


例如 ，1011， 
表示 
(1 x2°) +(0x2) +(Lx2) +(+22)， 


= (IIxBi+IrIOXd + {I x2) + {1 x1)., 
= 8 十 0 十 2 十 1 
= 11,, 


在 一 个 32 位 的 字 中 ,我 们 从 右 向 左 标 记 各 位 为 0，1，2，3…… 下 面 的 图 片 表示 了 MIPS 字 
中 每 一 位 的 编号 和 数字 1011, 的 存放 位 置 。 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 1716 151413121110 9 8 7 6 5432 10 


| C000 | 0000 | 0000 |ooo 0000 0000 0000 


(32 位 宽 ) 
由 于 字 是 水 平 或 垂直 方向 上 书写 的 ， 用 最 左边 或 最 右边 表示 大 小 带 有 不 确定 性 ， 因 此 采用 














提 二进制 数位 〈binary digit 或 binary bit) :二进制 状态 之 一 ， 即 0 或 1， 是 信息 的 基本 组 成 单位 。 
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最 低 有 效 位 9 表示 最 右边 的 一 位 (上 图 中 的 第 0 位 )， 最 高 有 效 位 50 表示 最 左边 的 一 位 (上 图 
中 的 第 31 位)。 

MIPS 的 字 有 32 位 ， 可 以 表示 2” 个 不 同 的 32 位 模式 。 很 自然 就 可 以 使 这 些 组 合 表示 从 0 到 
2” -1(4294 967 295，) 之 间 的 数 : 

0000 0000 0000 0000 0000 0000 0000 0000, =01o 


0000 0000 0000 0000 0000 0000 0000 0001, = 1, 
0000 0000 0000 0000 0000 0000 0000 0010, = 2,, 


1111 1111 1111 1111 1111 1111 1111 1101, =4 294 967 2931, 
1111 1111 1111 1111 1111 1111 1111 1110, =4 294 967 294,, 
1111 1111 1111 1111 1111 1111 1111 1111] ,=4 294 967 29510 


如 下 式 ，32 位 的 二 进 制 数字 也 可 以 表示 成 每 位 的 值 乘 以 该 位 的 2 的 医 次 的 形式 〈 这 里 鼠 表 

示 数 字 + 的 第 i 位 ) : 

(x31 x2 2) + (x30 x2”) + (x29 x22) + + (xl x2') + (x0 x2°) 
需要 注意 的 是 ， 上 式 是 二 进 制 数 的 一 般 表 示 。 实际 上 数 是 由 无 穷 多 的 位 组 成 的 ， 其 中 除了 最 右边 
的 少数 位 以 外 其 余 大 部 分 都 是 0。 正 常情 况 下 不 用 表示 左边 的 0。 

硬件 可 以 被 设计 成 对 这 些 二 进 制 数 进行 加 减 乘 除 操 作 。 如 果 操 作 结 果 不 能 被 最 右 端 的 硬件 
位 所 表示 ， 那 么 就 发 生 了 溢出 (overflow)。 如 何 处 理 洲 出 是 由 编程 语言 、 操 作 系 统 和 程序 来 决 
定 的 。 

计算 机 程序 对 正 数 和 负数 都 要 进行 计算 ， 所 以 需要 一 种 方法 来 区 分 正 数 和 人 负数。 显而易见 
的 解决 方案 是 增加 一 个 独立 的 符号 位 ， 这 种 表示 方法 称 为 符号 和 幅 值 (sign and magnitude) 方法 。 

符号 和 幅 值 方法 有 若干 缺点 。 首 先 ， 符 号 位 放 在 哪里 不 够 明确 ， 放 在 右边 还 是 左边 ? 早期 的 
计算 机 对 两 种 方法 都 尝试 过 。 其 次 ， 因 为 不 可 能 在 计算 时 提前 得 知 结果 的 符号 ， 对 于 符号 和 幅 值 
表示 的 数 进行 计算 需要 额外 的 一 步 来 设置 符号 。 最 后 ， 一 个 单独 的 符号 位 意味 着 在 符号 和 幅 值 
表示 的 数 中 不 但 有 正 零 而 且 还 有 负 零 ， 这 将 给 粗心 的 程序 员 带 来 问题 。 这 些 缺 点 导致 这 种 表示 
方法 很 快 就 被 放弃 了 。 

在 研究 更 具 吸 引力 的 替代 方案 时 产生 了 这 样 一 个 问题 ， 当 我 们 试图 用 一 个 较 小 的 数 减 去 一 
个 较 大 的 数 时 ， 无 符号 数 表示 方法 的 结果 将 会 是 什么 ? 答案 是 较 小 的 数字 将 会 从 前 面 的 0 中 借 
位 ， 所 有 结果 中 前 面 的 位 都 变 成 了 一 串 1。 

在 设 有 其 他 明显 更 好 选择 的 情况 下 ， 最 终 的 解决 方案 是 选择 一 种 使 硬件 简单 的 表达 方式 ; 
前 导 位 为 0 表示 正 数 ， 前 导 位 为 1 表示 负数 。 这 种 常用 的 表示 有 符号 二 进 制 数 的 方法 称 为 二 进 制 
补 码 〈two"s complement) 。 例 如 ， 

0000 0000 0000 0000 0000 0000 0000 0000, =01o 


0000 0000 0000 0000 0000 0000 0000 0001, =1, 
0000 0000 0000 0000 0000 0000 0000 0010, = 2,, 


0111 1111 1111 1111 1111 1111 1111 1101, =2 147 483 645,, 
O111 1111 1111 1111 1111 1111 1111 1110, =2 147 483 646,, 
O0111 1111 1111 1111 1111 1111 1111 1111, =2 147 483 647 ， 


1000 0000 0000 0000 0000 0000 0000 0000, = -2147483 64810 
1000 0000 0000 0000 0000 0000 0000 0001, = -2 147 483 647 ,0 


1000 0000 0000 0000 0000 0000 0000 0010, = -2 147 483 6461, 


加 ”最低 有 效 位 〈]least significant bit) ， 在 MIPS 字 中 最 右边 的 一 位 。 
吕 ”最高 有 效 位 ( most significant bit) : 在 MIPS 字 中 最 左边 的 一 位 。 
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1111 1111 1111 1111 1111 1111 1111 1101, 

1111 1111 1111 i1111 1111 1111 1111 1110, 

1111 1111 1111 1111 1111 1111 1111 1111, 

上 面 的 数字 中 一 半 是 正 数 ， 从 0 到 2147 483 647。(2 -1) ， 这 些 数字 的 表示 方式 与 之 前 是 
一 样 的 。 紧 接着 的 1000…0000, 表 示 最 大 的 负数 -2 147 483 648,。( -2 ) 。 而 后 是 按照 绝对 值 递 
减 的 负数 : 从 -2 147 483 647,。(1000…0001,) 到 一 1,。(1111:…1111,)。 

二 进 制 补 码 中 的 最 大 负数 -2 147 483 648, 没 有 相应 的 正 数 与 之 对 应 。 这 种 不 平衡 同样 也 会 
为 粗心 的 程序 员 带 来 烦恼 ， 但 相 比 符号 和 幅 值 方法 ， 该 方法 不 会 对 硬件 设计 人 员 造 成 困扰 。 因 
此 ， 现 在 所 有 计算 机 都 采用 二 进 制 补 码 方法 来 表示 有 符号 数 。 

采用 二 进 制 补 码 方法 的 优点 在 于 所 有 负数 的 最 高 有 效 位 都 是 1。 硬 件 只 需 检 测 这 一 位 就 可 以 
知道 一 个 数 是 正 数 还 是 负数 (这 一 位 为 0 表示 是 正 数 ) 。 因 此 ， 这 个 位 通常 叫做 符号 位 。 在 理解 
了 符号 位 之 后 ， 就 可 以 使 用 2 的 害 次 的 方式 来 表示 正 的 和 负 的 32 位 数 : 

(x31 x- 2 ) +(x30 x22) + (x29 x23) + + (xl x2:) + (x0 x 2°) 

符号 位 被 -2 乘 ， 其 余 的 位 仍 按 前 面 的 方法 计算 。 
E 列 二进制 到 十 进 制 的 转换 

下 面 这 个 用 32 位 二 进 制 补 码 表 示 的 数 对 应 的 十 进 制 数 是 多 少 ? 


1111 1111 1111 1111 1111 1111 1111 1100， 


国王 将 数 的 位 值 代用 上 面 的 公式 ; 
(1Lx2 )+(1x2”)+(LIx22)+…+(1x22)+(0x2) + (0 x2°) 
= — 23! + 2 + 22 + 2* + 0 + 0 
= -2147 483 648,, + 2 147 483 644,, 
一 一 人 0 
后 面 将 给 出 从 负数 转换 为 正 数 的 捷径 。 

就 像 无 符号 数 的 操作 结果 可 能 超过 硬件 允许 的 容量 而 发 生 溢 出 一 样 ， 对 二 进 制 补 码 数 的 操作 也 可 
能 发 生 溢出 。 滋 出 发 生 在 有 限 二 进 制 数 最 左边 的 符号 位 与 采用 无 穷 多 位 表示 该 数 时 左边 位 的 值 不 同 的 
情 次 下 《〈 即 符号 位 不 正确 ) : 当 该 数 是 负数 时 符号 位 是 0; 或 当 该 数 是 正 数 时 符号 位 是 1。 
硬件 软件 接口 | 

与 上 面 所 讨论 的 数 不 同 ， 存 储 器 地 址 很 自然 地 从 0 开始 一 直 连 续 增 加 到 最 大 的 地 址 。 换 言 
之 ， 负 地 址 是 没有 意义 的 。 因 此 ， 程 序 有 时 则 需要 处 理 一 些 可 以 是 正 也 可 以 是 负 的 数 ， 有 时 则 需 
要 处 理 一 些 仅 能 是 正 的 数 。 一 些 编程 语言 反映 了 这 区 别 。 例 如 C 语言 将 前 者 叫做 整数 (int) 而 
后 者 叫做 无 符号 整数 《unsigned int)。 一 些 C 编程 风格 的 指导 书 甚至 推荐 用 signeqd int 来 
声明 前 一 种 数 ， 以 使 区 别 更 加 明显 。 

我 们 来 看 两 种 处 理 二 进 制 补 码 数 的 捷径 。 第 一 种 是 对 二 进 制 补 码 数 取 反 的 快速 方法 。 简 单 对 每 
一 位 取 反 ,0 变 成 1，1 变 成 0， 然 后 对 结果 加 1。 这 个 捷径 是 基于 这 样 的 事实 ， 一 个 数 和 它 按 位 取 
反 的 结果 相 加 ， 和 一 定 是 111…111,， 即 -1。 因 此 x + = -1]， 即 x+xX+1=0 或 T+1 = -x。 

图 奢求 反 的 捷 色 
对 20 求 反 ， 然后 通过 对 -2i0 求 反 来 对 结果 进行 检查 。 


AT 
2 
Lm -站 


上 全 


-310 
一 210 
-110 


2 =0000 0000 0000 0000 0000 0000 0000 0010, 


求 反 就 是 将 这 个 数 按 位 取 反 再 加 1: 
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1111 II11 III1 1111 1117 1111 1111 1101, 


+ 1, 
= 1111 1111 1111 1111 1111 1111 1111 1110, 
一 -— 2,0 
田 一 方面 ， 将 
11J11 37111 1111 31111 1111 1111 1111 1101, 
也 按 位 取 反 再 加 1: 

0000 0000 0000 0000 0000 0000 0000 0001, 
+ 本， 
= 0000 0000 0000 0000 0000 0000 0000 0010, 
= 210 


第 二 种 捷径 用 于 将 一 个 用 位 表示 的 二 进 制 数 转化 成 一 个 用 多 于 n 位 表示 的 数 。 例 如 ， 在 取 
数 、 存 数 、 分 支 、 加 、 小 于 则 置 位 等 指令 中 的 立即 数字 段 包 含 一 个 二 进 制 补 码 表 示 的 16 位 数 ， 
表示 从 -32768。( -25 ) 到 32 767,。(25 -1)。 为 了 将 这 个 立即 数字 段 加 到 一 个 32 位 的 寄存 
器 ， 计 算 机 必须 将 这 个 16 位 的 数 转 换 成 数值 上 相等 的 32 位 的 数 。 这 个 捷径 就 是 将 原 有 的 16 位 
数 简单 复制 到 32 位 新 数 的 低 16 位 ， 其 最 高 有 效 位 (符号 位 ) 则 以 复制 的 方式 填 满 新 数 的 高 16 
位 。 这 个 捷径 通常 叫做 符号 扩展 (sign extension ) 。 
符号 扩展 的 捷径 

将 2o 和 -2io 从 16 位 二 进 制 数 转 换 为 32 位 二 进 制 数 。 

2 的 16 位 二 进 制 表示 形式 是 


0000 0000 0000 0010, =2 
将 这 个 数 转化 成 32 位 数 的 方法 是 : 将 最 高 有 效 位 (0) 拷贝 16 次 放 到 32 位 学 的 左 半 部 。 右 
半 部 的 16 位 保持 原 16 位 的 值 : 
0000 0000 0000 0000 0000 0000 0000 0010, =2,, 
使 用 前 面 介 绍 的 捷径 对 2 的 16 位 二 进 制 数 求 反 。 于 是 ， 
0000 0000 0000 0010, 
1111 1111 1111 1101, 


+ 1, 
= 1111 1111 1111 1110， 


将 该 求 反 结果 转换 为 32 位 数 的 捷径 就 是 将 符号 位 拷贝 16 次 放 到 32 位 字 的 左 半 部 ; 


1111 1111 1111 1111 1111 1111 1111 1110, = -2,, 


这 个 捷径 之 所 以 正确 ， 是 因为 二 进 制 补 码 表示 的 正 数 实际 上 在 左 侧 有 无 限 多 个 0， 而 负数 在 


左 侧 有 无 限 多 个 1。 只 是 为 了 适应 硬件 的 宽度 ， 数 的 前 导 位 被 隐藏 了 符号 扩展 只 是 简单 地 恢复 
了 其 中 一 部 分 。 


小 结 


本 节 的 主要 内 容 是 如 何在 给 定 的 计算 机 字 长 中 表示 正 整数 和 负 整 数 。 虽然 各 种 表示 方法 都 
有 各 自 的 优 缺 点 ， 但 从 1965 年 以 来 大 多 数 计算 机 都 采用 了 二 进 制 补 码 方法 。 
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小 测验 
下 面 这 个 64 位 二 进 制 补 码 数 对 应 的 十 进 制 数 是 多 少 ? 
1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1000， 
A. ~ 410 
B -810 


D.18 446 744 073 709 551 609,, 


精 解 : 二 进 制 补 码 的 得 名 来 自 下 述 规 则 : 一 个 nn 位 的 数 与 它 的 相反 数 做 无 符号 加 法 ， 结 果 是 2"， 因 此 ， 
% 的 相反 数 -x 的 二 进 制 补 码 表示 是 2" -x。 

除了 “二 进 制 补 码 ”和 “符号 和 幅 值 ”这 两 种 表示 法 以 外 ， 第 三 种 可 选 的 表示 法 是 所 谓 的 “ 反 码 ”?。 
在 反 码 中 ， 一 个 数 的 相反 数 就 是 将 这 个 数 的 每 一 位 按 位 取 反 ,0 变 成 1，1 变 成 0， 这 也 是 这 种 表示 法 名 字 
的 由 来 。 在 反 码 中 x 的 相反 数 是 2" -xx -1。 与 符号 和 幅 值 表 示 法 相 比 ， 反 码 在 某 些 方面 是 一 个 更 好 的 解决 
方案 ， 因 此 一 些 早 期 用 于 科学 计算 的 计算 机 采用 这 种 表示 法 。 与 补 码 相 比 ， 反 码 除 了 有 2 个 零 以 外 ， 其 余 都 
是 相似 的 。 其 中 正 0 是 00…00:,， 负 0 是 11…11,。 绝 对 值 最 大 的 负数 是 10…000: ， 它 表示 -2 147 483 647 
所 以 正 数 和 负数 的 个 数 是 平衡 的 。 当 采用 反 码 时 ， 加 法 器 需要 一 个 额外 的 步骤 减 去 一 个 数 来 修正 结果 。 因 
此 ， 现 在 的 计算 机 中 补 码 方法 占据 了 统治 地 位 。 

第 3 章 将 介绍 一 种 浮 点 数 的 表示 法 。 其 中 ， 最 大 的 负数 用 00…000, 表示 ， 最 大 的 正 数 用 
11…11: 表 示 ，0 一 般 用 10…00; 表 示 。 因 为 它 通 过 将 数 加 一 个 偏 移 使 其 具有 非 负 的 表示 形式 ， 所 
以 称 为 偏 移 表 示 法 ”。 

精 解 : 因为 带 符号 十 进 制 数 没 有 长 度 的 限制 ， 所 以 常用 “ -” 来 表示 负数 。 而 在 给 定 二 进 制 或 十 六 进 
制 〈《 见 图 2-4) 字 长 的 情况 下 ， 可 以 将 符号 编码 进位 串 中 ， 因 此 通常 不 使 用 “ +” 和 “ - ”来 表示 二 进 制 
或 十 六 进 制 数 。 


2.5 计算 机 中 指令 的 表示 

人 操作 计算 机 的 方式 与 计算 机 看 到 指令 的 方式 是 不 同 的 ， 现 在 我 们 就 可 以 来 解释 其 差别 了 。 

指令 在 计算 机 内 部 是 以 若干 或 高 或 低 的 电信 和 号 的 序列 表示 的 ， 并 且 看 上 去 和 数 的 表示 是 一 
样 的 。 实 际 上 ， 指 令 的 各 部 分 都 可 看 成 一 个 独立 的 数 ， 将 这 些 数 拼接 在 一 起 就 形成 了 指令 。 

因为 几乎 所 有 的 指令 中 都 要 用 到 寄存 器 ， 所 以 必须 有 一 套 规定 ， 以 使 寄存 器 名 字 映 射 成 数 
字 。 在 MIPS 汇编 语言 中 ， 寄 存 器 $s0 ~ $s7 映射 到 寄存 器 16 ~23, 同 时 ,寄存 器 $t0 ~ $t7 映 
喘 到 寄存 器 8 ~15。 因 此 , $s0 表示 寄存 器 16, $sl 表示 寄存 器 17, $s2 表示 寄存 器 18, 以 此 类 推 ， 
$t0 表示 寄存 器 8, $t1 表示 寄存 器 9, 依 此 类 推 。 在 下 面 几 节 中 ,我 们 将 介绍 32 个 寄存 器 中 其 余 
寄存 器 的 映射 。 
将 一 条 MIPS 汇编 语言 指令 翻译 成 一 条 机 器 指令 

下 面 以 MIPS 汇编 语言 为 例 。 对 于 符号 表示 为 add $t0,$sl,$s2 的 MIPS 指令 ,首先 给 出 
其 十 进 制 数 表示 形式 ， 接 着 给 出 其 二 进 制 数 表 示 形 式 。 
其 十 进 制 表示 为 


| Te To。T % | 


机 器 指令 分 为 若干 字段 (field) 。 本 例 中 第 一 个 字段 和 最 后 一 个 字段 (0 和 32) 组 合 起 来 告 


念 反 码 (one's complement) : 使 用 10…000, 表示 最 大 负数 ， 01…112 表 示 最 大 正 数 ， 正 数 和 负数 的 数量 相同 ， 但 
保留 两 个 零 ， 一 个 正 零 (00…00, ) ， 一 个 负 零 《11…112) 。 这 种 方法 也 用 来 表示 按 位 求 反 ， 即 0 宣 为 1 1 
置 为 0。 

© 偏 移 表 示 法 ( biased notation ) ; 最 大 的 负数 用 00…000, 表示 ， 最 大 的 正 数 用 11…11, 表示 ， 0 一般 用 10:…00, 表示 ， 
即 通 过 将 数 加 一 个 偏 移 使 其 具有 非 负 的 表示 形式 。 
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诉 MIPS 计算 机 ， 该 指令 要 完成 加 法 运算 。 第 二 个 字段 表示 加 法 的 第 一 个 源 操 作 数 寄存 器 号 
(1I7 = $s 1)， 第 三 个 字段 表示 加 法 的 另 一 个 源 操 作 数 寄存 器 号 〈18 = $s2)。 第 四 个 字段 表示 存 
放 和 的 目的 寄存 器 号 (8 = $t0)。 第 五 个 字段 在 这 条 指令 中 没有 用 到 ， 故 置 为 0。 这 样 ， 这 条 指 
令 将 寄存 器 $sl 和 寄存 器 $s2 内 容 相 加 ， 并 将 和 放 在 寄存 器 $t0 中 。 

这 条 指令 也 可 以 表示 成 二 进 制 的 形式 : 

Ti Ta Ta 

6 位 5 位 5 位 5 位 5 位 6 位 

指令 的 布局 形式 叫做 指令 格式 。 从 位 的 数目 可 以 看 出 ，MIPS 指令 占 32 位 ， 与 数据 字 的 位 
数 相等 。 为 遵循 简单 源 于 规整 的 原则 ， 所 有 MIPS 指令 都 是 32 位 长 。 

为 了 将 它 与 汇编 语言 区 分 开 来 ， 把 指令 的 数字 形式 称 为 机 器 语言 ， 这 样 的 指令 序列 叫做 机 
器 码 ( machine code ) 。 

为 避免 读 写 见长 乏味 的 二 进 制 字 串 ， 可 采用 比 二 进 制 基数 更 大 ,但 又 易 转化 为 二 进 制 的 表 
示 形 式 来 表示 。 由 于 几乎 所 有 的 计算 机 的 数据 大 小 都 是 4 的 整数 倍 ， 因 此 十 六 进 制 8 表示 形式 变 
得 很 流行 。 由 于 16 是 2 的 4 次 客 ， 可 以 很 简单 地 通过 将 每 4 位 二 进 制 数 替换 为 1 位 十 六 进 制 数 
来 完成 二 进 制 到 十 六 进 制 的 转换 ， 反 之 亦 然 。 图 2-4 给 出 了 十 六 进 制 和 二 进 制 之 间 的 转化 表 。 





图 2-4 十 六 进 制 和 二 进 制 转换 表 
可 以 简单 地 把 I 位 十 六 进 制 数 替 换 为 相应 的 4 位 二 进 制 数 ， 反 之 亦 然 。 如 果 二 进 制 数 的 位 数 不 是 4 的 整数 
倍 ， 转 化 要 从 右 往 左 进行 。 


为 了 避免 处 理 不 同 进 制 数 时 产生 混淆 ， 此 处 约定 十 进 制 数 加 下 标 10， 二 进 制 数 加 下 标 2， 十 
六 进 制 数 加 下 标 16。 (如 果 没 有 下 标 ， 那 么 默认 为 十 进 制 。) 顺便 说 明 ，C 和 Java 中 用 符号 
0xnnnn 来 表示 十 六 进 制 数 。 
二 进 制 和 十 六 进 制 间 的 转换 
将 下 面 的 十 六 进 制 数 转化 成 二 进 制 数 ， 二 进 制 数 转化 成 十 六 进 制 数 . 
eca8 6420 ， 
0001 0011 0101 0111 1001 1011 1101 1111, 


按 图 2-4 所 示 十 六 进 制 - 二 进 制 转换 表 查 表 得 : 


eca8 6420,。 


1110 II00 1010 1000 0110 0100 0010 0000, 


从 二 进 制 到 十 六 进 制 的 转换 : 


名 ”指令 格式 〈instruction format ) : 二 进 制 数字 段 组 成 的 指令 表示 形式 。 
司机 器 语言 ( machine language) : 在 计算 机 系统 中 用 于 交流 的 二 进 制 表示 形式 。 
加 十 六 进 制 〈《hexadecimal ) :基数 为 16 的 数 。 
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0001 0011 0101 0111 1001 1011 1101 1111, 


Ne 


13579bdf,, 


MIPS 字段 
为 了 使 讨论 变 得 简单 ， 给 MIPS 指令 的 字段 命名 如 下 ， 


TR | we | | 
6 位 5 位 5 位 5 位 5 位 6 位 

其 中 各 字段 名 称 及 含义 如 下 : 

。 op: 指令 的 基本 操作 ， 通 常 称 为 操作 码 ”。 

。 rs: 第 一 个 源 操作 数 寄存 器 。 

。 rt: 第 二 个 源 操作 数 寄存 器 。 

。 rd: 用 于 存放 操作 结果 的 目的 寄存 器 。 

。 shamt: 位 移 量 。( 在 2.6 节 中 介绍 移 位 指令 和 该 术语 、 在 此 之 前 ， 指 令 都 不 使 用 这 个 字 

段 ， 故 此 字段 的 内 容 为 0。) 

。 funct; 功能 。 一 般 称 为 功能 码 (function code) ， 用 于 指明 op 字段 中 操作 的 特定 变 式 。 

当 某 条 指令 需要 比 上 述 字段 更 长 的 字段 时 ， 问 题 就 会 发 生 。 例 如 ， 取 字 指 令 必 须 指 定 两 个 寄 
存 顺和 一 个 常数 。 在 上 述 格式 中 ， 如 果 地 址 使 用 其 中 的 一 个 5 位 字段 ， 那 么 取 字 指令 的 常数 就 被 
限制 在 2 〈 即 32) 之 内 。 这 个 常数 通常 用 来 从 数组 或 数据 结构 中 取 元 素 ， 所 以 它 常 常 比 32 大 得 
多 。5 位 字段 因 太 小 而 用 处 不 大 。 

因此 ， 既 希望 所 有 指令 长 度 相同 ， 又 希望 具有 统一 的 指令 格式 ， 两 者 之 间 产 生 了 冲突 。 这 就 
引出 了 最 后 一 条 硬件 设计 原则 。 

设计 原则 4: 优秀 的 设计 需要 适宜 的 折 中 方案 。 

MIPS 设计 者 选择 这 样 一 种 折 中 方案 : 保持 所 有 的 指令 长 度 相同 ,但 不 同类 型 的 指令 采用 不 
则 的 指令 格式 。 例 如 ， 上 述 格式 称 为 R 型 (用 于 寄存 器 ) 。 另 一 种 指令 格式 称 为 TI 型 〈 用 于 立即 
数 )， 立 即 数 和 数据 传送 指令 用 的 就 是 这 种 格式 。I 型 的 字段 如 下 所 示 : 


6 位 5 位 5 位 16 位 
16 位 地 址 字段 意味 着 取 字 指令 可 以 取 相 对 于 基 址 寄存 器 地 址 偏 移 + 25 或 者 32 768 个 字 节 
( +2 或 者 8192 个 字 ) 范围 内 的 任意 数据 字 。 类 似 地， 加 立即 数 指令 中 常数 也 被 限制 不 超过 上 25。 
可 以 看 到 在 这 种 格式 下， 设置 多 于 32 个 寄存 器 是 困难 的 ， 因 为 rs 和 it 字段 都 必须 增加 额外 的 
位 ， 而 32 位 字 长 的 指令 很 难 满 足 要 求 。 
我 们 来 分 析 一 下 2. 3. 1 节 例 子 中 的 取 字 指令 ， 





lw $t0,32($s3) #Temporary reg $t0 gets A[8] 


这 里 ，19 (寄存 器 $s3 ) 存 放 于 rs 字段 ,8( 寄 存 器 $t0) 存 放 于 rt 字段 ,32 存放 于 address 字 
撕 。 注 意 ,对 于 这 条 指令 地 字段 的 意思 已 经 改变 :在 一 条 取 字 指令 中 ,于 字段 用 于 指明 接收 取 数 结 
果 的 目的 寄存 器 。 


日” 操作 码 (opcode) ;指令 中 用 来 表示 操作 和 格式 的 字段 
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虽然 多 种 指令 格式 使 硬件 变 得 复杂 ,但 是 保持 指令 格式 的 类 似 性 仍 可 降低 复杂 度 。 例 如 ,R 型 
和 工 型 格式 的 前 3 个 字段 长 度 相等 ,并 且 名 称 也 一 样 ;I 型 格式 的 第 四 个 字段 和 R 型 后 三 个 字段 长 
度 之 和 相等 。 

也 许 你 会 想到 ,指令 格式 可 以 由 第 一 个 字段 的 值 来 区 分 :每 种 格式 在 第 一 个 字段 (op) 占有 不 
同 的 值 区 间 ,以 便 让 计算 机 硬件 知道 指令 后 半 部 分 是 三 字段 (R 型 ) 还 是 一 字段 (1 型 )。 图 2-5 给 
出 了 到 目前 为 止 已 使 用 过 的 MIPS 指令 的 每 个 字段 的 值 。 









na | 
1 ee 

ddress 
lwlodword) | 1 | 3 | re | re | na | na | na |address | 
rg | re | na | na | na |address | 


2-5 ”MIPS 指令 编码 
在 上 表 中 ,，“reg” 代 表 寄 存 器 的 标号 (从 0 到 31),“address” 表示 16 位 地 址 ,“n. a. ”(not applicable) 表示 这 个 字 
段 在 该 指令 格式 中 不 出 现 。 注 意 add 和 sub 指令 具有 相同 的 op 字段 值 ， 硬 件 根据 fanet 字段 的 值 来 决定 所 进 
行 的 操作 : add (32) 或 sub (34)。 
针 王 将 MIPS 汇编 语言 翻译 成 机 器 语言 
现在 可 以 给 出 一 个 钢 子 来 描述 从 程序 员 所 编程 序 到 机 器 执行 指令 的 整个 转换 过 程 。 如 果 数 
组 A 的 基 址 存放 在 $tl 中 ，h 存放 在 $s2 中 ， 下 面 的 C 赋值 语 名 ， 


A[300] =h +A[300]; 
被 编译 成 如 下 汇编 语 言 : 


lw $t0 ,1200( $t1) # Temporary reg $t0 gets A[300] 
add  $t0,$s2, $t0 # Temporary reg $t0 gets h + A[3001 
SW $t0,1200( $t1) # Stores h + A[300] back into A[ 300] 


这 三 条 MIPS 指令 的 机 器 语言 代码 是 什么 ? 
的 一 为 方便 起 见 ， 先 使 用 十 进 制 数 表示 机 器 语言 指令 。 从 图 2-5 中 可 以 确定 这 三 条 机 器 语言 指 






心 





lw 指令 的 第 一 个 字段 (op) 值 为 33 ( 见 图 2-5)。 在 第 二 个 字段 (rs) 中 指定 基 址 寄存 器 9 
($t1)， 在 第 三 个 字段 (rt) 中 指定 目的 寄存 器 8 ($t0)。 在 最 后 一 个 字段 address 中 存放 用 于 
指定 RL300] 的 偏 移 量 〈1200 =300 x4) 。 

下 一 条 add 指令 由 第 一 个 字段 (op) 值 0 和 最 后 一 个 字段 (funct) 值 32 共同 确定 。 第 二 、 


三 、 四 字段 中 的 三 个 寄存 器 (18，8 和 8) 分 别 对 应 $s2、$t0 和 $t0。 

SW 指令 由 第 一 个 字段 的 43 识别 。 这 条 指令 的 其 他 部 分 和 1w 指令 完全 一 样 。 

与 上 述 十 进 制 形式 对 应 的 二 进 制 机 器 指令 如 下 所 示 (十 进 制 数 1200 用 二 和 进 制 表示 为 
0000 0100 1011 0000). 


100011 01001 01000 0000 0100 1011 0000 
DO0000 10010 01000 01000 00000 100000 
101011 01001 01000 0000 0100 1011 0000 
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注意 ， 第 一 条 指令 和 最 后 一 条 指令 的 二 进 制 表示 非常 相似 ， 唯 一 不 同 的 是 从 左边 数 第 3 位 。 
图 2-6 归纳 了 本 节 讲 述 的 MIPS 机 器 语言 。 正 如 将 在 第 4 章 中 讲述 的 那样 ， 相 关 指令 在 二 进 
制 表 示 上 的 相似 性 可 简化 硬件 设计 。 这 种 相似 性 也 是 MIPS 体系 结构 规整 性 的 又 一 佐证 。 
MIPS 机 器 语言 


$s2, $s3 





2-6 2. 5 节 展 示 的 MIPS 体系 结构 
到 目前 为 止 所 见 到 的 MIPS 指令 都 是 R 型 和 1 型 指令 。 所 有 指令 的 前 16 位 都 是 相同 的 ， 都 包含 给 出 基本 的 
操作 的 op 字段 ; 给 出 第 一 源 操作 数 的 rs 字段 ; 给 出 第 二 源 操 作 数 的 比 字段 〈 取 字 指 令 除外 ， 在 取 字 指令 中 用 
于 指定 目的 寄存 器 ) 。R 型 指令 将 最 后 16 位 划分 为 3 个 字段 ，rd 字段 指明 目的 寄存 器 ; shamt 字段 将 在 2.6 节 
中 介绍 ; funct 字段 指明 R 型 指令 的 特定 辅助 操作 。I 型 指令 将 最 后 16 位 合并 为 一 个 address 字段 。 


重点 

如 今 计算 机 基于 以 下 两 个 重要 准则 构建 : 

1) 指令 用 数 的 形式 表示 。 

2) 和 数 一 样 ， 程 序 存 储 在 存储 器 中 ， 并 且 可 以 读 写 。 

这 些 原则 引出 看 储 程序 (stored- program) 的 梳 念 ， 这 一 发 明 释 放 了 计算 机 的 巨大 潜力 。 
图 2-7 显 示 了 存储 程序 的 强大 功能 。 特 别 地 ， 存 储 器 可 以 存放 编辑 器 程序 的 源 代 码 、 与 之 对 应 的 
编译 后 的 机 器 码 、 编 译 后 的 程序 需要 使 用 的 文本 ， 乃 至 用 于 生成 机 器 码 的 编译 器 。 








Bee tr 


一 


图 2-7 存储 程序 概念 

i 各 类 存储 程序 允许 将 一 台 用 于 记 账 的 计算 
机 转眼 间 变 成 一 台 可 以 帮助 作者 写 书 的 计算 
| 机 。 只 要 将 程序 和 数据 加 载 到 存储 器 中 并 千 
T2020002022275 | 诉 计 算 机 在 给 定 的 存储 器 地 址 开始 执行 程序 
E | ” 即 可 。 将 指令 和 数据 以 相同 的 方式 处 理 ， 极 
大 地 简化 了 计算 机 系统 的 存储 器 硬件 和 软 
二 工 二 工 工 二 工 二 二 二 二 二 3 件 。 尤 其 是 用 于 数据 的 存储 技术 同样 也 适用 
“于 程序 ， 如 编译 器 ， 它 能 够 将 那些 用 易于 人 
类 使 用 的 符号 编写 的 代码 翻译 成 机 器 能 理解 


ie 的 代码 。 
编辑 器 程序 使 用 
的 C 源 代 


er pone mp, Cg- Rome :mpeg CR CR CR LA 二 全 




















指令 表示 成 数 的 好 处 就 是 程序 可 以 被 当成 二 选 制 数 的 文件 发 行 。 商 业 上 的 意义 就 是 计算 机 
可 以 沿用 那些 指令 集 兼容 的 现成 软件 。 这 种 “二 进 制 兼容 ”使 得 工业 界 围 绕 着 几 种 指令 集体 系 
结构 形成 联盟 。 | 
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小 测验 





下 面 的 图 表 代表 的 是 哪 条 MIPS 指令 ? 





A.add $s0, $sl,$s2 
B. add $s2,$s0, $s1 
C.add $s2, $sl1l, $s0 
D. sub $s2,$s0, $sl 


2.6 逻辑 操作 

“ 正 相 反 ， 叮当 弟 接着 说 ,“ 如 果 那 是 真 的 ， 那 它 就 可 能 是 真 的 ; 如 果 那 曾经 是 真 的 ， 它 就 
是 真 过 ; 但 是 既然 现在 它 不 是 真 的 ， 那 么 现在 它 就 是 假 的 。 这 就 是 逻辑 。” 

Lewis Caroll, 《爱丽 丝 漫游 仙境 》，1865 

虽然 早期 的 计算 机 仪 对 整 字 进行 操作 ,但 人 们 很 快 就 发 现 ， 对 字 中 由 若干 位 组 成 的 字 
段 甚 至 对 单个 位 进行 操作 是 很 有 用 的 例如 考查 
字 里 面 每 个 由 8 位 组 成 的 字符 ( 见 2.9 节 )。 于 
和 是， 编程 语言 和 指令 集体 系 结构 中 增加 了 一 些 
指令 ， 用 于 简化 对 字 中 若干 位 进行 打包 或 者 拆 
包 的 操作 。 这 些 指令 被 称 为 逻辑 操作 。 图 2-8 
给 出 了 C、Java 和 MIPS 中 的 逻辑 操作 。 

第 一 类 逻辑 操作 称 为 移 位 〈sh 填 ) 。 它 们 将 ”图 2-8 C 和 Java 的 逻辑 操作 符 及 相应 的 MIPS 指令 
一 个 字 里 面 的 所 有 位 都 向 左 或 右 向 移动 ， 并 在 。 ”MIPs 使 用 一 个 操作 数 为 0 的 NOR 指令 实现 取 反 操作 。 
空 出 来 的 位 上 填充 0。 例如 ,假设 寄存 器 $s0 中 的 数据 是 : 


0000 0000 0000 0000 0000 0000 0000 1001, =9,, 

一 条 左 移 4 位 的 指令 执行 后 ， 得 到 的 新 值 是 : 

0000 0000 0000 0000 0000 0000 1001 0000, =144,, 

与 左 移 相 对 应 的 是 右 移 。 左 移 和 右 移 这 两 条 指令 在 MIPS 中 的 确切 名 字 是 逐 辑 左 移 ( s11) 


和 逻辑 右 移 ( sr1)。 下 面 的 指令 完成 的 就 是 上 述 操 作 ， 假 设 源 操 作 数 在 $ s0 中 ,结果 存储 到 
$t2 中 : | 





sil $t2,$s0,4 #reg $t2=reg $s0 <<4 bits 


前 面 介绍 R 型 指令 格式 时 没有 解释 shamt 字段 ， 它 在 移 位 指令 中 被 用 于 表示 移 位 量 (shift a- 
mount) 。 因 此 ， 上 述 指令 对 应 的 机 咒语 言 是 : 


指令 sl11 的 编码 在 op 字段 和 funct 字段 都 为 0,， rd 为 10 (寄存 器 $ 了 2), +t 为 16 (寄存 器 
$s0) ，shamt 为 4，rs 字段 没有 使 用 ， 被 置 为 0。 

效 辑 左 移 还 有 额外 的 好 处 ， 就 是 左 移 i 位 就 相当 于 乘 以 27， 这 就 像 十 进 制 数 左 移 i 位 相当 于 
乘 以 10 。 例 如 ， 上 面 的 s11 指令 左 移 了 4 位 ， 就 相当 于 乘 以 16 ( 即 24)。 所 以 ， 原 二 进 制 数 表 
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示 的 值 是 9， 而 9 x16 =144 ， 怡 好 就 是 移 位 后 的 结果 。 
第 二 类 有 用 的 操作 是 按 位 与 (AND)”。 该 操作 仅 当 两 个 操作 位 均 为 1 时 结果 才 为 1。 例如 ， 
如 果 寄 存 器 $t2 的 值 为 : 


0000 0000 0000 0000 0000 1101 1100 0000， 


寄存 器 $t1 的 值 为 : 


0000 0000 0000 0000 0011 1100 0000 0000, 


那么 ， 在 执行 下 面 的 MIPS 指令 后 


and $t0, $t1, $t2 # reg $t0 = reg $tl & reg $t2 


$t0 中 的 值 将 是 : 


0000 0000 0000 0000 0000 1100 0000 0000， 


AND 提供 了 一 种 将 源 操作 数 中 某 些 位 置 为 0 的 能 力 ， 前 提 是 另 一 个 操作 数 中 对 应 位 为 0。 后 
一 个 操作 数 传统 上 被 称 为 掩 码 (mask)， 帘 意 其 可 “隐藏 ” 某 些 位 。 

与 AND 对 侦 的 操作 是 按 位 或 ”( OR)。 该 操作 在 两 个 操作 位 中 任意 一 位 为 1 时 结果 就 为 1。 
为 详细 说 明 ， 仍 假设 $tl 和 $t2 中 的 值 都 和 上 面 的 例子 一 样 ,那么 下 述 MIPS 指令 


or $t0O, $tl, $t2 #reg $t0 = reg $t1 | reg $t2 


执行 后 $t0 的 值 是 : 


0000 0000 0000 0000 0011 1101 1100 0000， 


最 后 一 类 逻辑 操作 是 按 位 取 反 ” (NOT)。 该 操作 仅 有 一 个 操作 数 ， 将 1 变 成 0, 0 变 成 1。 
为 了 保持 三 操作 数 的 格式 ，MIPS 的 设计 者 引入 或 非 SNOR (NOT OR) 指令 来 取代 NOT。 如 果 一 
个 操作 数 是 0， 那 么 对 另 一 个 操作 数 而 言 ， 结 果 就 等 价 于 NOT: A NOR 0=NOT (A OR0) = 
NOT (Al)。 

如 采 寄 仓 器 $tl 中 的 值 与 上 例 保持 不 变 ， 寄 存 器 $t3 中 的 值 是 0， 那 么 下 面 MIPS 指令 


nor 8$t0,，$t1, $t3 #reg $t0 = ~ (reg $tl | red $t3) 
的 执行 结果 是 : 


1111 1111 3111 1111 1100 0011 1111 1111, 


图 2-8 显示 了 C 和 Java 的 操作 符 与 MIPS 指令 之 间 的 关系 。 像 在 算术 运算 中 一 样 ， 稍 数 在 
AND 和 OR 这 些 逻 辑 运算 里 也 是 很 有 用 的 ， 因 此 MIPS 也 提供 了 立即 数 与 (andi) 和 立 即 数 或 
(ori) 指令 。 常 数 在 NOR 中 出 现 的 很 少 ， 因 为 NOR 主要 功能 就 是 将 单 操作 数 按 位 取 反 ， 因 此 ， 
MIPS 指令 集体 系 结构 没有 设计 支持 NOR 立即 数 的 版 本 。 

精 解 : MIPS 指令 全 集 也 包括 异 或 (XOR) ， 当 2 个 操作 数 对 应 位 不 同时 署 1， 相 同时 置 0。C 语言 允许 
在 字 内 定义 由 若干 位 组 成 的 一 个 或 多 个 字段 ， 并 将 其 作为 对 象 包装 在 一 个 字 内 ， 以 适应 如 IO 设备 等 的 外 
部 接口 需求 。 所 有 字段 必须 放 在 一 个 单字 之 中 ， 并 采用 无 符号 整数 、C 编译 器 使 用 MIPS 的 下 列 逻 辑 指令 插 
人 和 提取 字段 : and、or、s11 以 及 sr]。 


按 位 与 (AND) : 按 位 进行 与 操作 ， 仅 当 两 个 操作 位 均 为 1 时 结果 才 为 1。 
按 位 或 〈OR) : 按 位 进行 或 操作 ， 当 两 个 操作 位 中 任意 一 位 为 1 时 结果 就 为 1。 
按 位 取 反 (NOT) : 按 位 进行 非 操 作 ， 仅 有 一 个 操作 数 ， 将 1 变 成 0, 0 变 成 1。 
或 非 (NOR) : 按 位 先 或 后 非 操作 ， 仅 当 两 个 操作 位 均 为 0 时 结果 才 为 1。 


四 由 0 
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小 测验 
下 面 哪个 操作 可 以 将 字 中 的 一 部 分 分 离 出 来 ? 
A. AND 
B. 左 移 后 再 进行 右 移 


2.7 决策 指令 

自动 化 计算 机 的 实用 性 取决 于 重复 使 用 给 定 指 令 序 列 的 可 能 性 ， 重 复 的 次 数 取 决 于 计 
算 的 结果 。…… 这 一 选择 可 以 根据 数 的 符号 来 决定 (计算 机 认为 0 是 正 数 )。 因 此 ， 我 们 引 
入 一 条 [指令] (条 件 转移 [指令 ])， 它 根据 给 定数 的 符号 从 两 条 路 径 中 选择 正确 的 一 条 
来 执行 。 

Burks 、Goldstine 和 von Neumann ，1947 

计算 机 与 简单 计算 器 的 区 别 在 于 决策 能 力 。 根 据 输入 数据 和 计算 过 程 中 产生 的 值 ， 它 可 以 
执行 不 同 的 指令 。 程 序 语言 通常 使 用 站 语句 描述 决策 ， 有 时 也 使 用 go to 语句 和 标签 。MIPS 汇编 
语言 中 有 2 条 类 似 让 和 go to 语句 功能 的 指令 。 第 一 条 是 


beq registerl ,register2,L1 


该 指令 表示 : 如 果 registerl 和 register2 中 的 数值 相等 ， 则 转 到 标签 为 L1 的 语句 执 
行 。 助 记 符 beq 代表 如 果 相 等 则 分 支 (branch if equal) 。 第 二 条 指令 是 


bne reglisterl ,register2,L1 


该 指令 表示 : 如 果 registerl 和 register2 中 的 数值 不 相等 ， 则 转 到 标签 为 L1 的 语句 执 
行 。 助 记 符 bne 代表 如 果 不 相等 则 分 支 (branch if not equal)。 这 2 条 指令 传统 上 称 为 条 件 分 支 
指令 。 
将 if-then-else 语句 编译 成 条 件 分 支 指令 

在 下 面 这 段 代码 中 ，f、g、h、i、j 都 是 变量 ， 设 该 五 个 变量 依次 对 应 于 从 $s0 到 $s4 的 寄存 
融 ， 求 这 条 C 语言 让 语句 编译 后 形成 的 MIPS 代码 。 

if (i==j)f=g+h;else f= g-h; 
了 洁 图 2-9 是 MIPS 代码 执行 过 程 的 流程 图 。 第 一 个 表达 式 比较 i 和 j 是 否 相等 ， 需 要 一 条 
beq 指令 。 通 常 ,通过 测试 分 支 的 相反 条 件 来 跳 过 证 语 旬 后面 的 then 部 分 ,代码 的 效率 会 更 高 ( 标 
签 Else 将 在 后 面 定义 ) 所 以 我 们 使 用 bne 指令 ， 


bne $s3,$s4,Else #9go to Else if i 


下 一 个 赋值 语 名 执行 一 个 单 操作 ， 如 果 所 有 的 操作 数 都 分 配给 寄存 器 ， 那 么 它 只 是 一 条 指令 ， 
add $s0,$sl,$s2 #f =g +h (skipped if i#j) 
在 这 语句 的 结尾 部 分 ， 需 要 引入 另 一 种 分 支 指令 ， 通常 叫做 无 条 件 分 支 指令 (unconditional 


branch)。 当 丙 到 这 种 指令 时 ， 程 序 必须 分 支 。 为 了 区 分 条 件 分 支 和 无 条 件 分 支 ，MIPS 将 无 条 件 
分 文 指 令 命名 为 jump， 简 写成 j( 标 签 Exit 将 在 后 面 定义 ) 。 


] Exit #9go to Exit 


这 语句 中 else 部 分 的 赋值 语句 也 可 编译 成 一 条 指令 。 我 们 只 需 将 标签 Else 加 在 这 条 指令 前 。 


局 ”条 件 分 支 指令 (conditional branch) : 该 指令 先 比较 两 个 值 ， 然后 根据 比较 的 结果 决定 是 否 从 程序 中 的 一 个 新 地 
址 开始 执行 指令 序列 。 . 
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标签 Exit 加 在 该 条 指令 后 面 ， 表 示 证 then-else 编译 的 代码 结束 : 


Else:sub $s0, $sl, $s2 #f£=g-h(skipped if i=]j) 
Exit: 





Exity 


图 2-9 上 述 if 语 旬 的 程序 流程 图 
左边 方 框 对 应 过 语句 的 then 部 分 ， 右 边 方 框 对 应 让 语句 的 else 部 分 。 
注意 : 就 像 汇编 器 完成 存 数 / 取 数 指令 的 数据 地 址 计算 一 样 ， 它 也 完成 分 支 指 令 的 地 址 计算 ， 
这 使 得 编译 器 和 汇编 语言 程序 员 解 除了 乏味 的 地 址 计算 任务 (参见 2. 12 市 )。 
编译 器 经 常 创建 一 些 在 编程 语言 中 没 出 现 过 的 分 支 和 标签 。 避 免 显 式 的 编写 这 些 标签 和 分 
支 是 使 用 高 级 编程 语言 的 好 处 之 一 ， 也 是 其 编码 速度 快 的 一 个 原因 。 


2.7.1 循环 


决策 无 论 是 在 二 选 一 的 让 语句 中 ， 还 是 在 迭代 计算 的 循环 语句 中 ， 都 起 着 重要 作用 。 但 这 两 
种 情况 下 ， 关 于 决策 的 汇编 语言 指令 是 相同 的 。 
编译 下 面 C 语言 while 循环 语句 

下 面 是 用 C 语言 编写 的 传统 循环 程序 : 

while (save[ i] ==k) 

i+=1; 

假设 i 和 kk 存放 在 寄存 髓 $s3 和 $s5 中 ， 数 组 save 的 基 址 存放 在 寄存 器 $s6 中 。 求 这 上 段 
C 程序 对 应 的 MIPS 汇编 代码 ? 
第 一 步 需要 将 save[ i] 读 入 到 一 个 临时 寄存 器 中 。 在 读 入 之 前 ， 需 要 计算 它 的 地 址 。 在 
将 i 加 到 save 数组 基 址 以 形成 访 存 地 址 前 ， 由 于 系统 按照 字 节 寻 址 的 缘故 ， 先 要 将 工 乘 以 4。 
幸运 的 是 ， 我 们 可 以 使 用 逻辑 左 移 指令 实现 这 一 乘法 ， 因 为 左 移 2 位 等 价 于 乘 4 ( 见 前 面 2.6 
节 )。 需 要 在 该 指令 前 增加 一 个 标签 Loop， 以 便 在 循环 末端 能 够 跳 回 该 指令 。 


Loop:s]ll] $tl,$s3,2 #Temp reg $t1 = i*4 


为 了 得 到 save[ i] 的 地 址 ， 需 要 将 $tl 和 $s6 中 save 的 基 址 相 加 : 
add $t1, $tl, $s6 # $tl = address of savel[ i] 

现在 可 用 该 地 址 将 save[ij 读 入 到 一 个 临时 寄存 器 中 : 
lw $t0,0 ($t1) #Temp reg $t0 = savelil] 


下 一 条 指令 执行 循环 判断 ， 如 果 save[i] 天 kxk 则 退出 循环 : 
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bne $t0,$s5,ExiIt 并 go to Exit if save[i|]Ak 
再 下 一 条 指令 将 二 加 1: 
addi $s3,$s3,1 #1i=i+L1 


在 循环 的 末尾 ， 程 序 跳 转 到 循环 的 开始 。 随 后 增加 了 一 个 Exit 标签 ， 这 样 就 完成 了 全 部 编译 


j Loop # go to Loop 

Exit: 

( 见 练习 题 中 对 该 指令 序列 的 优化 。) 
硬件 /软件 接口 

以 分 支 指令 结束 的 这 类 指令 序列 对 编译 非常 重要 ， 因 此 它们 有 对 应 的 专用 术语 ; 基本 块 2。 
基本 块 是 没有 分 支 (可 能 出 现在 末尾 者 除外 ) 并 且 没 有 分 支 目标 /分 支 标签 (可 能 出 现在 开始 者 
除外 ) 的 指令 序列 。 编 译 最 初 阶段 的 任务 之 一 就 是 将 程序 分 解 为 若干 基本 块 。 z 

相等 或 不 等 大 概 是 最 常见 的 判断 语句 ， 但 有 时 判断 一 个 变量 是 否 小 于 另 一 个 变量 也 是 非 党 
有 用 的 。 例 如 for 循环 就 需要 判断 索引 变量 是 否 小 于 0。 在 MIPS 汇编 语言 中 提供 了 一 条 指令 来 实 
现 这 种 比较 ， 该 指令 在 比较 两 个 寄存 器 内 容 之 后 ， 若 第 一 个 寄存 器 小 于 第 二 个 寄存 器 ， 则 将 第 三 
个 寄存 器 设置 为 1， 否 则 设置 为 0。 该 指令 称 为 小 于 则 置 位 (set on less than) ， 即 sl1t。 例 如 ， 


Slt S$t0, $s3, $s4 # $t0 =1 if $s3 < $s4 


表示 当 寄 作 髓 $s3 的 值 小 于 寄存 器 $s4 的 值 时 ， 寄 存 器 $t0 被 置 为 1， 否 则 寄存 器 $t0 被 置 
为 0。 | 

在 比较 中 经 常 使 用 常数 操作 数 ， 所 以 有 立即 数 版 本 的 小 于 则 置 位 指令 。 例 如 ， 为 了 测试 寄存 
郁 $s2 的 值 是 否 小 于 常数 10， 可 以 使 用 如 下 指令 . 


siti $t0,$s2,10 #8$t0 =1 if $s2<10 


MIPS 编译 器 使 用 slt 、siti、beq、bne 和 固定 值 0 (总 是 可 以 通过 读 取 寄存 器 $zero 来 
获得 ) 来 创建 所 有 的 比较 条 件 ， 相等 、 不 等 、 小 于 、 小 于 或 等 于 、 大 于 、 大 于 或 等 于 。 

遵循 冯 ， 诺 伊 曼 关于 “设备 ” 简单 性 的 原则 ，MIPS 体系 结构 没有 提供 “小 于 则 分 支 ” 指 令 ， 因 
为 这 种 指令 过 于 复杂 ， 它 会 延长 时 钟 周期 时 间 ， 或 增加 平均 执行 每 条 指令 的 周期 数 (CPI)。 

比较 指令 应 该 具有 分 清 有 符号 数 和 无 符号 数 的 能 力 。 有 时 候 二 进 制 数 最 高 位 为 1 的 数 代表 一 
个 负数 ， 它 当然 应 该 小 于 所 有 最 高 有 效 位 为 0 的 正 数 。 太一 方面 ， 如 果 是 无 符号 数 ， 最 高 有 效 位 
为 1 的 数 将 大 于 所 有 最 高 有 效 位 为 0 的 数 。 (我 们 将 很 快 看 到 最 高 有 效 位 具有 双重 意义 在 减少 数 
组 边界 检查 开销 中 所 带 来 的 优点 。) 

MIPS 为 这 两 种 情况 提供 两 个 版 本 的 小 于 则 置 位 指令 。slt(set on less than) 和 slti (set on 
less than immediate ) 指令 用 于 处 理 有 符号 整数 ,而 sltu( set on less than unsigned) 和 sltiut( set on 
less than immediate unsigned ) 指令 则 用 于 处 理 无 符号 整数 。 

ES 有 符号 比较 和 无 符号 比较 的 对 比 

假设 寄存 器 $s0 中 的 二 进 制 数 为 





加 ”基本 块 (basic block) : 没有 分 支 (可 能 出 现在 末尾 者 除外 ) 并 且 没 有 分 支 目标 /分 支 标签 (可 能 出 现在 开始 
除外 ) 的 指令 序列 。 和 
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1111 1111 1111 1111 1111 1111 111] 1111, 


而 寄存 器 $sl 中 的 二 进 制 数 为 


0000 0000 0000 0000 0000 0000 0000 0001， 


在 执行 以 下 两 条 指令 后 寄存 器 $t0 和 $tl 中 的 值 分 别 是 多 少 ? 


slt $t0O, $s0, $s1 # signed comparison 
sltu  $tl, $s0, $si # unsigned comparison 


如 果 是 有 符号 数 ， 那 么 寄存 器 $s0 中 的 值 为 -lo， 寄 存 器 $sl 中 的 值 为 1,,; 如 果 是 无 
符号 数 ， 那 么 寄存 器 $s0 中 的 值 为 4294 967 295, ,寄存 器 $ si 中 的 值 仍 为 1,,。 因 此 ， 寄 存 器 
$t0 中 的 值 为 1， 因 为 -1,。<1%; 寄存 器 $tl 中 的 值 为 0, 因 为 4294 967 295,, >1,,。 

将 有 符号 数 作为 无 符号 数 来 处 理 ,是 一 种 检验 0<x <y 的 低 开 销 方法 ,常用 于 检查 数组 的 下 标 
是 否 越 界 。 问 题 的 关键 是 负数 在 二 进 制 补 码 表 示 法 中 看 起 来 像 是 无 符号 表示 法 中 一 个 很 大 的 数 ， 
因为 在 无 符号 数 中 最 高 有 效 位 是 符号 位 ,而 有 符号 数 中 最 高 有 效 位 是 具有 最 大 权重 的 位 。 所 以 使 
用 无 符号 比较 x <y, 在 检查 x 是 否 小 于 y 的 同时 ,也 检查 了 x 是 否 为 一 个 负数 。 
边界 检查 的 捷径 

利用 这 个 捷径 可 以 降低 检验 下 标 是 否 越界 的 开销 : 

如 果 $sl 宇 $t2 或 者 $sl 是 负数 则 跳 转 到 IndexOut0fBounds。 
检查 代码 仅 使 用 一 条 sltu 指令 即 可 同时 进行 两 种 检查 : 


sltu $t0, $sl, $t2 # $tO = 0 if $sl >= length or $sl <0 
beq $t0, $zero, InNdexOutOfBounds # if bad, goto Error 


2. 7.2 case/switch 语 身 


大 多 数 程序 设计 语言 中 都 包括 case 或 switch 语句 ， 使 得 程序 员 可 以 根据 某 个 变量 的 值 选 择 不 
同 分 支 之 一 。 实 现 switch 语句 的 最 简单 方法 是 借助 一 系列 的 条 件 判断 ， 将 switeh 语句 转化 为 
i 寺 -then-else 语 句 般 套 。 

有 时 候 必 一 种 更 有 效 的 方法 是 将 多 个 指令 序列 分 支 的 地 址 编码 为 一 张 表 ， 即 转移 地 址 表 @ 
这 样 程序 只 需 索 引 该 表 即 可 跳 转 到 恰当 的 指令 序列 。 转 移 地 址 表 是 一 个 由 代码 中 标签 所 对 应 地 
址 构成 的 数组 。 程 序 需 要 跳 转 的 时 候 首 先 将 转移 地 址 表 中 适当 的 项 加 载 到 寄存 器 中 ， 然 后 使 用 
寄存 器 中 的 地 址 值 进行 跳 转 。 为 了 支持 这 种 情况 ， 像 MIPS 这 样 的 计算 机 提供 了 寄存 器 跳 转 指令 
jr (jump register) ， 用 来 无 条 件 地 跳 转 到 寄存 器 指定 的 地 址 。 该 指令 将 在 下 一 节 中 介绍 。 

虽然 在 C 或 Java 这 样 的 编程 语言 中 有 许多 分 支 判 断 和 循环 语句 ， 但 是 在 指令 集 这 一 层次 实 
现 其 功能 的 基本 语句 是 条 件 分 支 。 

精 解 : 如 果 你 曾经 听 说 过 延迟 转移 (将 在 第 4 章 中 介绍 )， 那 么 不 必 对 此 担心 : MIPS 谍 编 莫 会 使 其 对 
汇编 语言 程序 员 不 可 见 。 
小 测验 
1) C 语言 中 有 很 多 分 支 和 循环 语句 ,但 是 在 MIPS 中 却 很 少 。 下 述 各 句子 有 没有 前 明 这 种 不 均衡 ?为 什么 ? 
A. 更 多 的 决策 语句 使 得 代码 更 容易 被 阅读 和 理解 。 
B. 更 少 的 决策 语句 简化 了 负责 执行 的 底层 工作 。 


〇 转移 地 址 表 (jump address table) : 又 称 作 转 移 表 (jump table) ， 指 包含 不 同 指令 序列 地 址 的 表 。 
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C. 更 多 的 决策 语句 意味 着 更 少 的 代码 量 ， 这 节约 了 编程 的 时 间 。 
D. 更 多 的 决策 语句 意味 着 更 少 的 代码 量 ， 这 意味 着 执行 更 少 的 操作 。 
2) 为 什么 5 语言 提供 了 两 种 与 操作 〈& 和 &&) 和 两 种 或 操作 (| 和 | )， 而 MIPS 没有 提供 呢 ? 
A. 逻辑 操作 AND 和 OR 实现 外 和 | ， 而 条 件 分 支 实现 && 和 |。 
B. 上 面 的 描述 说 反 了 : && 和 | 对 应 应 于 还 辑 操作 ， 而 & 和 1 对 应 于 条 件 分 支 。 
C. 它们 是 元 余 的 并 且 其 实 是 一 回 事 ，&& 和 || 都 是 简单 继承 于 C 程序 设计 语言 的 前 身 : B 语言 。 


2.8 计算 机 硬件 对 过 程 的 支持 

过 程 或 函数 是 程序 员 进 行 结构 化 编程 的 工具 ， 两 者 均 有 助 于 提高 程序 的 可 读 性 和 代码 的 可 
重用 性 。 过 程 允 许 程序 员 每 次 只 需 将 精力 集中 在 任务 的 一 部 分 ， 参 数 担任 过 程 与 其 他 程序 、 数 据 
之 间接 口 的 和 角色， 因为 它们 能 传递 数值 并 返回 结果 。 在 CD 上 的 2.15 节 中 ， 描 述 了 Java 语言 
过 程 的 等 价 表示 方法 ， 但 对 计算 机 的 要 求 ，Java 与 C 语言 完全 相同 。 

你 可 以 将 过 程 想 象 成 一 个 侦探 ， 他 离开 时 带 着 一 项 神秘 的 计划 ， 为 了 完成 该 计划 ， 需 要 获得 
资源 、 执 行 任 务 并 隐匿 行踪 ， 最 后 带 着 预期 的 结果 返回 起 点 。 一 旦 任务 完成 将 不 再 对 系统 产生 任 
何其 他 干扰 。 更 重要 的 是 ,侦探 是 在 “需要 知道 ”的 基础 上 工作 的 ， 所 以 侦探 不 需 对 雇主 做 任 z 
何 假定 。 

同样 地 ， 在 过 程 运 行 期 间 ， 程 序 必 须 遵循 以 下 六 个 步骤 : 

1) 将 参数 放 在 过 程 可 以 访问 到 的 位 置 。 

2) 将 控制 转移 给 过 程 。 

3) 获得 过 程 所 需 的 存储 资源 。 

4) 执行 请 求 的 任务 。 

5) 将 结果 的 值 放 在 调用 程序 可 以 访问 到 的 位 置 。 

6) 将 控制 返回 初始 点 ， 因 为 一 个 过 程 可 能 由 一 个 程序 中 的 多 个 点 调用 。 

如 上 所 述 ， 寄 存 器 是 计算 机 中 保存 数据 最 快 的 位 置 ， 所 以 我 们 希望 尽 可 能 多 地 使 用 寄存 器 。 
MIPS 软件 在 为 过 程 调用 分 配 32 个 寄存 器 时 遵循 以 下 约定 : 

。 $a0 ~ $a3: 用 于 传递 参数 的 四 个 参数 寄存 器 。 

se $v0 ~ $v1: 用 于 返回 值 的 两 个 值 寄存 器 。 

。 $ra: 用 于 返回 起 始点 的 返回 地 址 寄存 器 。 

除了 分 配 这 些 寄存 器 之 外 ，MIPS 汇编 语言 还 包括 一 条 过 程 调 用 指令 ; 跳 转 到 某 个 地 址 的 同 
时 将 下 一 条 指令 的 地 址 保存 在 寄存 器 $ra 中 。 这 条 跳 转 和 链接 指令 8 格式 为 


jal ProcedureAddress 


指令 中 的 链接 部 分 表示 指向 调用 点 的 地 址 或 链接 ， 以 允许 过 程 返回 到 合适 的 地 址 。 存 储 在 
寄存 器 $ra (31 号 寄存 器 ) 中 的 链接 部 分 称 为 返回 地 址 ?3。 返 回 地 址 是 必需 的 ， 因 为 同一 过 程 
可 能 在 程序 的 不 同 部 分 调用 。 

为 了 文 持 这 种 情况 ， 类 似 MIPS 的 计算 机 使 用 了 寄存 器 跳 转 (jump register) 指令 jr, 用 于 
case 语句 ,表示 无 条 件 跳 转 到 寄存 器 所 指定 的 地 址 : 


jr $ra 


加 过 程 (procedure) : 根据 提供 的 参数 执行 一 定 任务 的 存储 的 子 程序 。 

© 中 全 损人 (jump -and - link instruction) ， 跳 转 到 某 个 地 址 的 同时 将 下 -- 条 指令 的 地 址 保存 到 寄存 器 $ra 

© ui (retum address) : 指向 调用 点 的 链接 ， 使 过 程 可 以 返回 到 合适 的 地 址 ， 在 MIPS 中 它 存储 在 寄存 器 
ra 
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寄存 器 跳 转 指令 跳 转 到 存储 在 $ra 寄存 器 中 的 地 址 一 一 这 正 是 我 们 所 希望 的 。 因 此 ， 调 用 
程序 或 称 为 调用 者 ” ， 将 参数 值 放 在 $a0 ~ $a3 ， 然 后 使 用 jal x 跳 转 到 过 程 x (有 时 称 为 被 调 
用 者 ” ) 。 被 调用 者 执行 运算 ， 将 结果 放 在 $v0 和 $v1 ， 然 后 使 用 jr $ra 指令 将 控制 返回 给 调 
用 者 。 

在 存储 程序 概念 中 ， 使 用 一 个 寄存 器 来 保存 当前 运行 的 指令 地 址 是 绝对 必要 的 。 尽 管 这 个 
寄存 器 更 为 合理 的 名 字 可 能 应 该 是 指令 地 址 寄存 器 (instruction address register) ， 但 是 出 于 历史 
原因 ， 这 个 寄存 器 通常 称 为 程序 计数 器 ， 在 MIPS 体系 结构 中 缩写 为 PC。jal 指令 实际 上 将 
PC +4 保 存在 寄存 器 $ra 中 ， 从 而 将 链接 指向 下 一 条 指令 ， 为 过 程 返回 做 好 准备 。 


2. 8. 1 使 用 更 多 的 寄存 器 


假设 对 于 一 个 过 程 ， 编 译 器 需要 使 用 多 于 四 个 参数 寄存 器 和 两 个 返回 值 寄存 器 。 由 于 在 任务 完 
成 后 必须 消除 踪迹 ， 调 用 者 使 用 的 任何 寄存 器 都 必须 恢复 到 过 程 调 用 前 所 存储 的 值 。 这 种 情况 可 以 
看 成 是 需要 将 寄存 器 换 出 到 存储 器 的 一 个 例子 ， 如 “硬件 /软件 接口 ”部 分 所 提 到 的 那样 。 

换 出 寄存 器 的 最 理想 的 数据 结构 是 栈 一 一 一 种 后 进 先 出 的 队列 。 栈 需要 一 个 指针 指向 栈 中 
最 新 分 配 的 地 址 ， 以 指示 下 一 个 过 程 放 置换 出 寄存 器 的 位 置 ， 或 是 寄存 器 旧 值 的 存放 位 置 。 栈 指 
针 按照 每 个 被 保存 或 恢复 的 寄存 器 以 字 为 单位 进行 调整 。MIPS 软件 为 栈 指针 保留 了 第 29 号 寄 
存 化 ， 并 将 其 命名 为 sp。 由 于 栈 的 应 用 十 分 广泛 ， 因 此 向 栈 传递 数据 或 从 栈 中 取 数 都 有 专用 术 
语 : 将 数据 放 人 栈 中 称 为 压 栈 ”， 从 栈 中 移 除数 据 称 为 出 栈 e 。 

按照 历史 惯例 ， 栈 “增长 ”是 按照 地 址 从 高 到 低 的 顺序 进行 的 。 这 意味 着 将 值 压 栈 时 ， 栈 
指针 值 减 小 ;而 值 出 栈 时 ， 栈 长 度 缩短 ， 栈 指针 增 大 。 
编译 一 个 不 调用 其 他 过 程 的 C 过 程 

将 2.2 节 的 例子 转化 为 一 个 C 过 程 : 

int leaf example (int g,int h,int i,int Jj) 


{ 
int f£; 


f= (g+h) -~ (i+j); 
reture f» 


} 

编译 后 的 MIPS 汇编 代码 是 什么 呢 ? 
参数 变量 g、h、 i 和 各 j 对 应 参数 寄存 器 $a0 、$al、 $a2 和 $a3，f 对 应 $s0。 编 译 后 
的 程序 是 以 如 下 标号 开始 的 过 程 : 

leaf example: 


下 一 步 是 保存 过 程 中 使 用 的 寄存 器 。 过 程 实体 中 的 C 赋值 语句 与 2.2 节 的 例子 相同 ， 使 用 了 
两 个 临时 寄存 器 。 因 此 ， 需 要 保存 三 个 寄存 器 : $s0、S$to 和 $tl。 我 们 将 旧 值 “ 压 栈 "， 也 就 


调用 者 (caller) :调用 一 个 过 程 并 为 过 程 提 供 必 要 参数 值 的 程序 。 

证 调用 者 〈eallee) : 根据 调用 者 提供 的 参数 执行 一 系列 存储 的 指令 , .然后 将 控制 权 返 回调 用 者 的 过 程 。 

程序 计数 器 ( program counter，PC ) 包含 在 程序 中 正在 被 执行 指令 地 址 的 寄存 器 。 

栈 (stack): 被 组 织 成 后 进 先 出 队列 形式 并 用 于 寄存 器 换 出 的 数据 结构 。 

栈 指针 《staek pointer) :指示 栈 中 最 近 分 配 的 地 址 的 值 ， 它 指示 寄存 器 被 换 出 的 位 置 ， 或 寄存 器 上 昌 值 的 存放 他 
置 。 在 MIPS 中 ， 栈 指针 是 寄存 器 $sp。 

压 栈 (push) : 向 栈 中 增加 元 素 。 

出 栈 (pop) :从 栈 中 移 除 元 素 。 
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是 在 栈 中 建立 三 个 字 的 空间 并 将 数据 存 人 : 


addi $sp, $sp,—12 # adjust stack to make room for 3 items 





Sw $t1,8 ($sp) # save register $t1 for use afterwards 
Sw $t0O,4 ($sp) # save register $t0 for use afterwards 
Sw $s0,0 ($sp) # save register $s0 for use afterwards 
图 2-10 给 出 了 在 过 程 调 用 之 前 、 之 中 和 之 后 的 栈 。 

高 地 址 

$sp—> 

低地 址 

a) b) C) 


图 2-10 在 过 程 调用 之 前 (a) 、 之 中 【b) 和 之 后 (c) 栈 指针 以 及 栈 的 值 
栈 指针 总 是 指向 栈 顶 ， 或 者 说 是 图 中 栈 的 最 后 一 个 字 。 


接着 的 三 条 语句 对 应 过 程 实体 ， 与 2.2 节 的 例子 相同 : 


add $t0, $a0, $al # register $t0 contains g+h 
add $t1, $a2, $a3 # register $t1 contains i 1+] 
sub $s0, $t0, $t1 #fE= $tO - $t1l,which is(g+h) - (i+]j) 


为 了 返回 工 的 值 ,我 们 将 它 复 制 到 一 个 返回 值 寄存 器 中 : 


adqd $v0 , $s0, $zero # returns f ($v0 = $s0 +0) 


在 返回 前 ， 我 们 通过 从 栈 中 “弹出 ”数据 的 方式 恢复 寄存 器 的 三 个 旧 值 : 


lw $s0,0( $sp) #restore register $s0 for caller 
lw $t0,4( $sp) #restore register $t0 for caller 
lw $t1,8( $sp) #restore register $tl for caller 


addi $sp, $sp,12 #adjust stack to delete 3 items 


过 程 末 尾 处 根据 跳 转 寄 存 嘱 中 的 返回 地 址 跳 转 : - 


国 $ra # jump back to calling routine 


前 面 的 例子 曾经 使 用 了 临时 寄存 器 ， 并 假设 它们 的 旧 值 必须 保存 和 恢复 。 为 了 避免 保存 
和 恢复 一 个 其 值 未 被 使 用 过 的 寄存 器 (通常 是 临时 寄存 器 ) ，MIPS 软件 将 18 个 寄存 器 分 为 
两 组 : 

。 $t0~$t9:10 个 临时 寄存 器 ,在 过 程 调用 中 不 必 被 调用 者 〈 被 调用 的 过 程 ) 


保存 。 
。 $s0 ~ $s7: 8 个 保留 寄存 器 ， 在 过 程 调用 中 必须 被 保存 (一旦 被 使 用 ， 由 被 调用 者 保 
存 和 恢复 ) 。 


这 一 简单 约定 减少 了 寄存 器 换 出 。 在 上 面 的 例子 中 ， 因 为 调用 者 不 希望 在 过 程 调用 时 保存 
寄存 器 $t0 和 $t1 ， 我 们 可 以 去 掉 有 关 两 次 保存 和 两 次 载 人 的 代码 。 我 们 始终 需要 保存 和 恢复 
$s0 ， 因 为 被 调用 者 必须 假设 调用 者 需要 该 值 。 
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2. 8.2 奶 套 过 程 


不 调用 其 他 过 程 的 过 程 称 为 叶 过 程 (leaf procedure) 。 如 果 所 有 过 程 都 是 叶 过 程 ， 那 么 情况 就 很 简 
单 ， 但 实际 并 非 如 此 。 就 像 一 个 侦探 其 任务 的 一 部 分 是 雇佣 其 他 侦探 一 样 ， 被 和 雇佣 的 侦探 进而 雇佣 更 
多 的 侦探 ， 某 个 过 程 调用 其 他 过 程 也 是 这 样 。 更 进 -- 步 的 是 ， 递 归 过 程 甚至 调用 的 是 自身 的 “克隆 "。 
就 像 在 过 程 中 使 用 寄存 器 需要 十 分 小 心 一 样 ， 在 调用 非 叶 过 程 时 需要 更 加 小 心 。 

例如 ， 假 设 主 程序 将 参数 3 存 人 寄存 器 $a0， 然 后 使 用 jal A 调用 过 程 A。 再 假设 过 程 A 通过 
jal B 调用 过 程 B， 参 数 为 7， 同 样 存 人 $a0。 由 于 A 尚未 结束 任务 ， 所 以 在 寄存 器 $a0 的 使 用 上 存在 
冲突 。 同 样 地 ， 在 寄存 器 $ra 保存 的 返回 地 址 上 也 存在 冲突 ， 因 为 它 现在 保存 着 B 的 返回 地 址 。 除 非 
我 们 采取 措施 阻止 这 类 问题 发 生 ， 否 则 这 个 冲突 将 导致 过 程 A 无 法 返回 其 调用 者 。 

一 个 解决 方法 是 将 其 他 所 有 必须 保存 的 寄存 器 压 栈 ， 就 像 将 保留 寄存 器 压 栈 一 样 。 调 用 者 
将 所 有 调用 后 还 需要 的 参数 寄存 器 ( $a0 ~ $a3) 或 临时 寄存 器 ( $to ~ $t9) 压 栈 。 被 调用 
者 将 返回 地 址 寄存 器 $ra 和 被 调用 者 使 用 的 保留 寄存 器 ($s0 ~ $s7) 都 压 栈 。 栈 指针 $sp 随 
着 栈 中 寄存 器 个 数 调整 。 到 返回 时 ， 寄 存 器 会 从 存储 器 中 恢复 ， 栈 指针 也 随 着 重新 调整 。 
编译 一 个 递归 C 过 程 ， 演 示 炭 套 过 程 的 链接 

下 面 是 一 个 计算 阶乘 的 递归 过 程 : 

int fact (int n) 

{ 

if(n<ili}return(]): 


else return (nx fact (n -1})):; 


} 

该 过 程 的 MIPS 汇编 代码 是 怎样 的 呢 ? 
ER 到 ”和 参 赤 量 "对 应 参数 寄存 器 $a0 。 编 译 后 的 程序 以 过 程 标签 开始 ， 然 后 在 栈 中 保存 两 个 寄 
存 器 ， 一 个 是 返回 地 址 ， 另 一 个 是 $a0 : 


fact : 
addi $sp, $sp, -8 #adjust stack for 2 items 
Sw $ra,4 ($sp) #8save the return address 
SW $a0,0 ($sp) #8save the argument n 


第 一 次 调用 fact 时 ，sw 保存 程序 中 调用 fact 的 地 址 。 紧 接着 的 两 条 指令 测试 n 是 否 小 于 
1， 如 果 n>=1 则 跳 转 到 工 1 。 
slti $t0, $a0,l # test for n<1 
beq $t0 , $zero,Ll #ifn >=1,go to Ll 
如 果 了 小 于 1，fact 将 1 置 入 一 个 值 寄存 器 并 返回 。 具 体 做 法 是 在 0 上 加 1 再 将 和 存 入 
$v0。 然 后 从 栈 中 退出 两 个 已 保存 的 值 并 跳 转 到 返回 地 址 ， 
addi  $v0,$zero,1 #returni 
addi $sp, $sp,8 # pop 2 items off stack 
jr $ra # return to callerl 
在 从 栈 中 退出 两 项 之 前 ， 本 应 该 加 载 $a0 和 $ra。 但 由于 n 小 于 1 时 $a0 和 $ra 没有 变 
化 ,所 以 就 跳 过 了 这 些 指 令 。 
如 果 n 不 小 于 1， 参数 n 减 1 后 使 用 减 1 后 的 值 再 次 调用 fact: 


Ll:addi $a0,$a0,-1 #n>=1;argument gets (n -1) 
Jal fact # call fact with (n -1) 
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下 一 条 指令 是 fact 的 返回 位 置 。 现 在 旧 的 返回 地 址 和 旧 的 参数 以 及 栈 指针 都 需要 恢复 : 


lw $a0,0( $sp) # return from jal:restore argument n 
lw $ra,4( $sp) # restore the return address 
addi $sp, $sp,8 # adjust stack pointer to pop 2 items 


接 下 来 ， 值 寄存 器 $v0 得 到 旧 参 数 $a0 和 当前 值 寄存 器 的 乘积 。 这 里 假设 乘法 指令 是 可 用 
的 ， 尽 管 直到 第 3 章 才 涉及 乘法 指令 。 


mul $v0 , $a0, $vO #returnn* fact {(n - 1) 


最 后 ，fact 上 表 次 跳 转 到 返回 地 址 : 


jr $ra # return to the caller 


硬件 软件 接口 

C 语言 中 的 一 个 变量 通常 对 应 存储 中 的 一 个 位 置 ， 其 解释 取决 于 其 类 型 (type) 和 存储 方式 
(storage class) 。 这 方面 的 例子 包括 整 型 和 字符 型 ( 见 2.9 节 )。C 语言 包括 两 种 存储 方式 : 动态 
的 《automatic) 和 静态 的 (static)。 动 态 变量 位 于 过 程 中 ， 当 过 程 退出 时 失效 。 静 态 变量 在 进入 
和 退出 过 程 时 始终 存在 。 在 所 有 过 程 之 外 声明 的 C 变量， 以 及 声明 时 使 用 关键 字 static 的 变量 都 
被 视 作 静态 的 ， 其 余 的 变量 都 被 视 作 动态 的 。 为 了 简化 静态 数据 的 访问 ，MIPS 软件 保留 了 另 一 
个 寄存 器 ， 称 为 全 局 指针 ”， 即 $gp。 

图 2-11 总 结 了 过 程 调用 时 所 需 保 存 的 内 容 。 需 要 注意 的 是 一 些 方案 保存 了 栈 ， 以 确保 调用 者 出 栈 
时 得 到 与 压 栈 时 相同 的 数据 。 只 需 保证 被 调用 者 不 在 $sp 以 上 进行 写 操作 ，$sp 以 上 的 栈 就 可 以 得 到 
保存 ; 而 $sp 本 身 的 保存 是 通过 按 被 调用 者 将 减 去 值 的 相同 数量 重新 加 上 来 实现 的 ， 其 他 寄存 器 则 通 
过 将 它们 保存 到 栈 (如 果 它 们 被 使 用 到 的 话 ) 再 从 栈 中 恢复 它们 来 进行 保存 。 


:保留 : : 不 保留 
杰 指 针 以 上 的 模 | 入 ffXTFb 术  - 


图 2-11 过 程 调用 时 保留 和 不 保留 的 内 容 
如 果 软 件 依赖 于 下 面 将 讨论 的 帧 指针 寄存 器 或 者 全 局 指针 寄存 器 ， 那 么 它们 也 需要 保留 。 


2. 8.3 在 栈 中 为 新 数据 分 配 空间 


最 后 一 点 复杂 性 是 栈 还 需要 存储 相对 过 程 来 说 是 局 部 的 变量 ， 但 这 些 变量 不 适用 于 寄存 器 ， 
例如 局 部 的 数组 或 结构 体 。 栈 中 包含 过 程 所 保存 的 寄存 器 和 局 部 变量 的 片段 称 为 过 程 帧 8 或 活动 
记录 。 图 2-12 显示 了 过 程 调用 之 前 、 之 中 和 之 后 栈 的 状态 。 

茶 些 MIPS 软件 使 用 帧 指针 ” ( $fp) 指向 过 程 帧 的 第 一 个 字 。 在 过 程 中 栈 指 针 可 能 会 发 生 
改变 ， 因 此 存储 器 中 对 局 部 变量 的 引用 在 过 程 中 的 不 同位 置 可 能 具有 不 同 的 偏 移 量 ， 这 使 得 过 
程 更 加 难以 理解 。 另 一 种 方案 ， 帧 指针 在 一 个 过 程 中 为 局 部 存储 器 引用 提供 一 个 固定 的 基 址 寄 
仓 嚣 。 注 意 ， 无 论 是 否 使 用 显 式 的 帧 指针 ， 活 动 记录 都 出 现在 栈 中 。 我 们 通过 避免 在 过 程 中 修改 














后 全 局 指针 (〈global pointer) : 指向 带 态 数据 区 的 保留 寄存 器 。 


© 全 和 人 ( procedure frame) : 也 称 作 活动 记录 (activation record) ， 栈 中 包含 过 程 所 保存 的 寄存 器 以 及 局 部 变量 的 


加 ” 帧 指针 (frame pointer) : 指向 给 定 过 程 中 保存 的 寄存 器 和 局 部 变量 的 值 。 
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$sp 来 避免 使 用 $tp， 在 我 们 的 例子 中 ， 栈 只 在 过 程 的 入 口 和 出 口 需要 调整。 
高 地 址 


$fp— 





$ sp 一 i 和 i 

保存 的 参数 寄存 器 
(如 果 有 的 话 ) 

保存 的 返回 地 址 


保存 的 保留 寄存 器 
《如 果 有 的 话 ) 


局 部 数组 和 结构 体 
(如 果 有 的 话 ) 
低地 址 


a) b) Cc) 
















图 2-12 过程 调用 之 前 (a) 、 之 中 (b)、 之 后 (c) 栈 的 分 配 情况 
帧 指针 〈 $fp) 指向 该 帧 的 第 一 个 字 (一般 是 保存 的 参数 寄存 器 ) ， 而 栈 指针 〈 $sP) 指向 栈 顶 。 栈 可 调整 
为 有 足够 的 空间 容纳 所 有 的 保留 寄存 器 和 驻 留 内 存 的 局 部 变量 。 因 为 在 过 程 运行 期 栈 指针 可 能 会 改变 ， 所 以 对 
于 程序 员 而 言 ， 虽 然 使 用 栈 指 针 和 少量 的 地 址 运算 就 可 能 完成 对 变量 的 引用 ， 但 使 用 固定 的 帧 指针 引用 变量 会 
更 为 简单 。 如 果 在 一 个 过 程 中 栈 内 没有 局 部 变量 ， 编 译 器 将 可 以 不 设置 和 不 恢复 慰 指 针 以 节省 时 间 。 当 使 用 帧 
指针 时 ， 在 调用 中 使 用 $sp 的 地 址 进行 初始 化 ， 而 $ sp 可 以 使 用 $fp 来 恢复 。 相 关内 容 可 以 在 本 书 文 前 的 
MIPS 参考 数据 的 第 4 列 找到 。 


2. 8. 4 在 堆 中 为 新 数据 分 配 空间 


除了 动态 变量 对 过 程 是 局 部 有 效 之 外 ，C 程序 员 还 需要 在 内 存 中 为 静态 变量 和 动态 数据 结构 
提供 空间 。 图 2-13 给 出 了 MIPS 分 配 内 存 的 约定 。 栈 由 内 存 高 端 开 始 并 向 下 增长 。 内 存 低 端的 第 
一 部 分 是 保留 的 ， 之 后 是 MIPS 机 器 代码 的 第 一 部 分 ， 通常 称 为 正文 段 ”。 正 文 段 之 上 的 代码 为 
静态 数据 段 (static data segment) ， 是 存储 党 量 和 其 他 静态 变量 的 空间 。 尽 管 数组 通常 具有 固定 
长 度 因 而 能 与 静态 数据 段 很 好 地 匹配 ， 但 类 似 链 表 这 样 的 数据 结构 通常 会 随 生命 期 增长 或 缩短 。 
这 类 数据 结构 对 应 的 段 习 惯 上 称 为 堆 〈heap) ， 一 般 在 存储 器 中 放 在 静态 数据 段 之 后 。 注 意 这 种 
分 配 人 允许 栈 和 堆 相 互 增长 ， 从 而 在 两 个 段 此 消 彼 长 的 过 程 中 达到 内 存 的 高 效 使 用 。 


$sp—* 7fff fffc,e 


2-13 ”程序 和 数据 的 MIPS 内 存 分 配 

这 些 地 址 只 是 一 种 软件 规定 ， 并 非 MIPS 体系 结构 的 一 部 
分 。 栈 指针 初始 化 为 7 答 ffcue ， 并 朝 数据 段 的 方向 向 下 增长 。 
在 男 一 端 ， 程 序 代码 (正文 段 ) 从 地 址 0040 000016 开始 。 静 
态 数 据 从 1000 000016 开始 。 然 后 是 动态 数据 ， 在 C 中 使 用 
malloc 命令 分 配 ， 在 Java 中 使 用 new 命令 来 分 配 。 动 态 数据 
在 某 一 区 域 中 朝 着 栈 的 方向 向 上 生长 ,该 区 域 称 为 堆 。 全 局 
指针 $ gp 应 设置 为 适当 地 址 以 便于 访问 数据 。 它 初始 化 为 
1000 80001。 ， 这 样 通过 相对 $gp 的 正 负 16 位 的 偏 移 量 就 可 以 
访问 从 1000 000016 到 1000 ffie 之 间 的 内 存 空 间 。 关 于 这 点 可 
参见 本 书 文 前 的 MIPS 参考 数据 的 第 4 列 。 


$gp —> 1000 8000,., 
1000 0000，。 





pc 0040 0000,.6 


0 eR 


C 语言 通过 显 式 的 函数 调用 在 堆 上 分 配 和 释放 空间 。malloc () 在 堆 上 分 配 空间 并 返回 指向 


曲 正 文身 (text segment) : UNIX 目标 文件 中 的 段 ， 包 含 源 文件 中 例 程 对 应 的 机 器 语言 代码 。 
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它 的 指针 ，free () 释放 指针 指向 的 堆 空间 。 内 存 分 配 由 C 程序 控制 ， 这 是 很 多 错误 产生 的 根源 。 
忘记 释放 空间 会 导致 “内 存 泄漏 " ， 它 会 逐渐 耗 尽 大 量 内 存 以 至 于 操作 系统 可 能 崩溃 。 过 早 释 放 
空间 会 导致 “ 悬 摆 指针 ” ( dangling pointer) ， 会 造成 指针 指向 程序 不 想 访问 的 位 置 。Java 使 用 自 
动 的 内 存 分 配 和 无 用 单元 回收 机 制 来 防止 类 似 的 错误 发 生 。 

2-14 总 结 了 MIPS 汇编 语言 的 寄存 器 约定 。 


调用 时 是 否 保 存 
不 适用 





2-14 MIPS 寄存 器 约定 
称 为 $at 的 寄存 器 1 被 汇编 器 所 保留 〈 见 2. 12 节 ) ， 称 为 $k0 ~ $kl 的 寄存 器 26 ~ 27 被 操作 系统 所 保留 。 

关于 这 点 也 可 见 本 书 文 前 的 MIPS 参考 数据 的 第 2 列 。 

精 解 : 如 果 参 数 多 于 四 个 该 怎么 办 呢 ? MIPS 约定 将 额外 的 参数 放 在 栈 中 帧 指针 的 上 方 。 这 样 过 程 从 寄 
存 器 $a0 到 $a3 中 获得 前 四 个 参数 ,通过 帧 指针 在 内 存 中 寻 址 获得 其 余 参 数 。 

如 图 2-12 的 标题 所 述 , 帧 指针 的 方便 性 在 于 对 过 程 中 所 有 栈 内 的 变量 引用 都 具有 相同 的 偏 移 。 然 而 , 帧 
指针 并 不 是 必需 的 。GNU MIPS C 编译 器 使 用 帧 指针 ,而 来 自 MIPS 的 C 编译 器 则 没有 使 用 , 它 将 寄存 器 30 
用 做 为 一 个 保留 寄存 器 ($s8 ) 。 

精 解 : 一 些 递 归 过 程 可 以 不 使 用 递归 而 用 选 代 的 方式 实现 。 通 过 消除 过 程 调用 的 相关 开销 ， 迭代 可 以 
显著 提高 性 能 。 例 如 ， 考 虑 下 面 一 个 用 来 求 和 的 过 程 : 

int sum(int n,int accl){ 
if(n>0) 
return sum(n -1,acc +n); 
else 


return acc: 
} 


考虑 过 程 调 用 sum (3 ,0)。 这 将 递归 调用 sum (2 ,3 ) 、 sum (1,5) 和 sum(0,6)， 然 后 结果 6 


将 进行 4 次 返回 操作 。 这 种 求 和 的 递归 调用 称 为 旦 调用 (tail call)， 而 这 个 例子 可 以 使 用 尾 迭 代 (tail 
recursion ) 高 效 地 实现 〈 假 设 $ao =n 目 $al = acc). 


sum:slti $a0 ,1 #test if n <=0 
beq $a0, $zero,sum exit # go to Sum exit ifn<=0 
add $al $al, $a0 # add n to acc 
addi $a0, $a0, -1 # subtract 1 fromn 
j Sum # go to sum 

sum exit: 
add $v0 , $al, $zero # return value acc 
jr $ra # return to caller 

下 面 关 于 C 和 Java 的 描述 哪些 是 正确 的 ? 


A.C 程序 员 显 式 地 管理 数据 ， 而 在 Java 中 一 般 是 自动 的 。 
B.C 比 Java 导致 更 多 的 指针 错误 和 内 存 泄 漏 错误 。 
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2.9 人 机 交互 

! (@| => (wow open tab at bar is great ) . 
键盘 诗 《Hatless Atlas》 的 第 4 行 ，1991 

(对 ASCI 字符 的 一 些 命 名 :“! ”是 wow,“”(” 是 open,“1 ”是 bar， 等 等 ) 。 

计算 机 发 明 是 为 了 数字 计算 ， 不 过 很 快 被 用 于 商业 方面 的 文字 处 理 。 今 天 大 多 数 计 算 机 使 
用 8 位 的 字 节 来 表示 字符 ， 也 就 是 几乎 每 个 人 都 遵循 的 ASCII (American Standard Code for Infor- 
mation Interchange) 码 。 图 2-15 对 ASCII 进行 了 总 结 。 

二 进 制 对 人 类 来 说 不 是 自然 计数 方法 的 ， 我 们 有 10 个 手指 头 ， 所 以 我 们 自然 的 采用 十 进 制 数 。 
为 什么 计算 机 不 使 用 十 进 制 呢 ? 事实 上 ， 第 一 他 商用 计算 机 确实 提供 了 十 进 制 算术 。 问 题 在 于 计算 
机 仍然 采用 开关 信号 ， 所 以 一 个 十 进 制 数 将 由 几 个 二 进 制 数 来 表示 。 十 进 制 被 证 明 效 率 很 低 ， 所 以 
后 来 的 计算 机 都 转向 了 二 进 制 ， 只 有 在 相对 很 少 发 生 的 VO 事件 中 才 将 数据 转换 成 十 进 制 。 
ASCII 码 与 二 进 制 数 对 比 

我 们 可 以 使 用 一 串 ASCI 码 而 不 用 整数 来 表示 数字 。 如 果 用 ASCII 码 表 示 10 亿 这 个 数 将 比 
用 32 位 整数 表示 增加 多 少 存储 呢 ? 
10 亿 就 是 1000 000 000， 需 要 使 用 10 位 ASCII 码 表示 ,每 一 个 ASCII 码 都 是 8 位 长 。 所 
以 存储 将 增长 到 (10 x8)/32 即 2.5 倍 。 除 了 存储 空间 要 增加 外 ， 用 于 对 这 些 十 进 制 数 字 进 行 加 
法 、 减 法 、 乘 法 和 除法 的 硬件 的 设计 也 是 困难 的 。 这 些 困难 解释 了 为 什么 计算 专家 越 来 越 相 信使 
用 二 进 制 的 计算 机 是 自然 的 ， 而 偶然 出 现 的 十 进 制 计 算 机 则 是 奇怪 的 。 
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LE 图 2-15 字符 的 ASCI 码 表 示 

与 字母 和 对 应 小 写字 母 的 差 均 为 32， 这 个 观测 结果 可 以 得 到 -一 条 检查 和 切换 大 小 写 的 捷径 没 
有 给 出 的 ASCII 值 包括 格式 化 字符 。 例如 ，8 代表 退 格 ，9 代表 tab 字符， 而 13 代表 回 车 。 另外 -个 有 用 的 值 
ll C 编程 语言 用 这 个 来 标记 字符 串 的 结尾 。 这 些 内 容 也 可 以 在 本 书 文 前 的 MIPS 参考 数据 的 第 3 列 
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可 以 使 用 一 系列 指令 从 一 个 字 中 提取 出 一 个 字 节 ， 所 以 字 的 读 取 和 存储 同样 可 以 完成 对 字 
节 的 传输 。 然 而 ， 由 于 在 某 些 程序 中 对 文本 的 操作 十 分 普遍 ， 所 以 MIPS 还 提供 字 节 传输 指令 。 
字 节 读 取 lb (load byte) 指令 从 内 存 中 读 出 一 个 字 节 ， 并 将 其 放 在 一 个 寄存 器 最 右边 的 8 位 。 字 
节 和 存储 sb (store byte) 指令 把 一 个 寄存 器 最 右边 的 8 位 取出 来 然后 写 到 内 存 中 。 这 样 ， 我 们 可 
以 按 下 面 的 顺序 复制 一 个 字 节 : 


1b $t0,0( $sp) # Read byte from source 
sb $t0,0( $gp) # Write byte to destination 


硬件 /软件 接口 

和 算术 运算 一 样 ， 对 取 数 指令 来 说 有 符号 数 和 无 符号 数 是 有 区 别 的 。 取 回 有 符号 数 后 需要 
使 用 符号 位 填充 寄存 器 的 所 有 剩余 位 ， 称 为 符号 扩展 ， 但 其 目的 是 在 寄存 器 中 放 入 数字 正确 的 
表示 方式 。 取 回 无 符号 数 只 是 简单 地 用 0 来 填充 数据 左 侧 的 剩余 位 ， 因 为 这 种 表示 形式 的 数 是 没 
有 符号 的 。 

当 把 32 位 的 字 加 载 到 32 位 的 寄存 器 中 ， 上 面 的 讨论 是 没有 意义 的 ， 因 为 无 符号 数 和 有 符号 
数 的 加 载 是 完全 一 样 的 。MIPS 提供 了 两 种 字 节 加 载 的 方法 : 一 种 是 用 于 字 节 加 载 的 1b (load 
byte) ，lb 将 字 节 看 做 有 符号 数 ， 使 用 符号 扩展 来 填充 寄存 器 的 左 侧 24 位 ; 另 一 种 是 用 于 无 符号 
整数 加 载 的 lbu (load byte unsigned ) 。 由 于 C 程序 几乎 都 是 使 用 字 节 来 表示 字符 ， 很 少 用 来 表示 
有 符号 短 整 数 (short signed integers) ， 所 以 实际 中 几乎 所 有 的 字 节 加 载 都 是 使 用 Lbu。 

字符 通常 被 组 合 为 字符 数目 可 变 的 字符 串 。 表 示 一 个 字符 串 的 方式 有 三 种 选择 ， (1) 保留 
字符 串 的 第 一 个 位 置 用 于 给 出 字符 串 的 长 度 ，(2) 附加 一 个 带 有 字符 串 长 度 的 变量 ( 如 在 结构 
体 中 ); (3) 字符 串 最 后 的 位 置 用 一 个 字符 来 标识 其 结尾 。C 语言 使 用 第 三 种 选择 ， 用 一 个 值 为 
0 〈ASCIH 码 中 的 null) 的 字 节 来 结束 字符 串 。 所 以 ， 字 符 串 “Cal” 在 C 中 用 4 个 字 节 表示 ， 用 
十 进 制 表示 分 别 为 : 67、97 、108 、0。( 下 面 即 将 看 到 ，Java 采用 第 一 种 表示 方法 ,) 
陪 网 | 通过 编译 一 个 字符 串 复 制 过 程 ， 来 展示 如 何 使 用 C 字符 串 
strcpy 过 程 将 C 语言 中 约定 使 用 null 字 节 结 束 的 字符 串 y 复制 到 字符 串 x. 


void strcpy (char x[ ] ,char y[ ]) 
{ 





int i; 

i=0; 

while((x[i] =y[i]}! = WO)A copy & test byte*/ 
i +=1; 


} 

编译 后 的 MIPS 汇编 代码 是 什么 ? 
下 面 是 基本 的 MIPS 汇编 代码 段 。 假 定数 组 x 和 y 的 基地 址 在 $a0 和 $al 中 ,而 i 在 $ 
s0 中 。strcpy 调整 栈 指针 然后 将 保留 寄存 器 $s0 保存 在 本 中。 


StrecPpY: 
addi $sp, $sp, -4 # adjust stack for 1 more item 
SW $s0,0( $sp) # save $s0 


为 了 将 初始 化 为 0， 下 一 条 指令 通过 对 0 和 0 做 加 法 并 将 和 放 到 $s0 中 的 方法 将 $s0 置 为 0， 
add $s0, $zero, $zero #i=0+0 
这 是 循环 的 开始 。y[ i] 地 址 的 形成 是 通过 把 i 加 到 yL ] 上: 


Ll .add $ti, $s0, $al # address of y[il]in $t1 
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注意 我 们 不 必 将 工 乘 以 4， 因 为 yY 是 字 节 的 数组 而 并 非 字 的 数组 ， 和 前 面 的 例子 一 样 。 
为 了 读 取 y[i] 中 的 字符 ， 我 们 使 用 无 符号 字 节 恋 取 指令 ， 将 字符 放 入 $t2 中 : 


lbu $t2,0 ($t1l) # $t2=y|i] 
采用 类 似 的 计算 方式 将 x[i] 的 地 址 放 在 $t3 中 ， 然 后 将 $t2 中 的 字符 保存 到 该 地 址 中 。 


add $$t3, $s0, $ad # address of x[ ilin $+t3 
sp $t2,0 ($t3) #x[i] =yli] 


接 下 来 ， 如 果 字 符 是 0 则 退出 循环 。 也 就 是 说 ， 如 果 它 是 字符 串 的 最 后 一 个 字符 则 退出 : 
beq $t2,$zero,L2 # if y[i] = 一 站 ,go to L2 
如 有 果 不 是 ， 将 i 加 1 继续 循环 


addi $s0, $s0.1 站 半 == 主 十 1 
| LI # go to L1 


如 果 不 继续 循环 ， 那 就 是 到 了 字符 串 的 最 后 一 个 字符 ， 我 们 还 原 $s0 和 栈 指 针 ， 然 后 返回 。 


L2 :1Ww $s0,0( $sp) # yLi] ==0;end of string.Restore old $s0 
addi $sp, $sp,4 # pop 1 word off stack 
jr $ra # return 


在 C 中 字符 串 复 制 通常 使 用 指针 而 不 是 数组 ， 从 而 避免 上 面 代 码 中 对 i 的 操作 。 详 见 2. 14 
节 数 组 和 指针 对 比 的 相关 解释 。 

由 于 strcpy 是 一 个 叶 过 程 ， 编 译 器 可 以 把 i 放 在 临时 寄存 器 中 以 避免 对 $s0 进行 保存 和 
恢复 。 因 此， 我 们 可 以 不 把 $t 寄存 器 用 做 临时 寄存 器 ， 而 是 将 其 用 做 被 调用 者 可 以 方便 使 用 的 
寄存 人 器 。 当 编译 器 遇 到 一 个 叶 过 程 时 ， 它 会 在 用 完 所 有 临时 寄存 器 之 后 ， 才 使 用 那些 必须 保存 的 
寄存 器 。 


Java 中 的 字符 和 字符 串 


Unicode 是 大 多 数 人 类 语言 中 字母 的 通用 编码 。 图 2-16 是 一 个 Unicode 字母 表 的 示例 ，Uni- 
code 中 字母 数 和 ASCII 编码 中 有 用 的 字符 数 一 样 多 。 为 了 更 有 包容 性 ，Java 对 字符 使 用 Unicode， 
默认 使 用 16 位 来 表示 一 个 字符 。 

MIPS 指令 集 包 含 显 式 的 读 取 和 存储 16 位 半 字 (halfword) 的 指令 。 读 取 半 字 指 令 
lh 《load half) 从 存储 器 中 读 出 一 个 半 字 ， 然 后 将 其 放 在 寄存 器 的 最 右边 16 位 。 与 读 取 字 节 类 
似 ， 读 取 半 字 指 令 ln 也 将 半 字 看 做 有 符号 数 并 进行 符号 扩展 ， 以 填充 寄存 器 左 侧 的 16 位 。 
而 无 符号 读 取 半 字 指令 lhu (load halfword unsigned) 将 半 字 看 做 无 符号 数 ， 这 条 指令 更 加 常 
用 。 存 储 半 字 指令 sh (store half) 将 寄存 器 最 右边 的 16 位 写 人 存储 器 。 我 们 按照 下 面 的 序列 
来 复制 半 字 : 


lhu $r0,0(8sP) #Read halfword(16 bits) from source 
sh $t0.0( $gp) #Write halfword(16 bits)to destination 


字符 串 是 一 个 标准 的 Java 类 ， 它 对 连接 、 比 较 、 转换 的 方法 提供 了 专门 的 内 建 支持 和 预定 
义 方法 。 与 C 不 同 的 是 ，Java 包含 一 个 字 来 给 出 字符 串 长 度 ， 这 和 Java 数组 相似 。 

精 解 : MIPS 软件 试图 保持 楼 和 字 地 址 的 对 齐 ， 这 样 就 允许 程序 总 是 使 用 1w 和 sw (要 求 必须 是 对 齐 
的 ) 来 访问 栈 。 这 一 约定 意味 着 一 个 char 类 型 变量 在 栈 中 被 分 配 4 字 节 ， 尽 管 它 并 不 需要 这 么 多 。 然 而 ， 
一 个 C 字 符 串 变量 或 一 个 字 节 数组 会 把 每 4 个 字 节 压缩 为 1 个 字 ， 而 一 个 Java 字符 串 变 量 或 short 类 型 数组 
会 把 每 2 个 半 字 压缩 为 1 个 字 。 
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General Punctuation 

Spacing Modifier Letters 

Curency Symbols 

Combining Diacritical Marks 
Combining Marks for Symbols 
Superscripts and Subscripts 

Number Forms 

Mathematical Operators 
Mathematical Alphanumeric Symbols 


Braille Patterns 









CT 
Shell 
Lae 
Tibet 
Ge 
areal Ja 
Den 


SS 
om 
Tamil Tagalog 
2-16 Unicode 字母 表示 例 


Unicode 4. 0 版 本 有 超过 160 个 “ 块 ”， 每 个 块 是 一 个 符号 集 的 名 字 ， 且 是 16 的 整数 倍 。 举 例 来 说 ， 希 腊 字 
符 (Greek) 从 0370is 开 始 ， 西 里 尔 字符 ( Cynillic) 从 040016 开 始 。 前 三 列 以 Unicode 的 数字 顺序 粗略 地 列 出 
了 48 个 块 对 应 的 48 种 人 类 语言 。 最 后 一 列 中 的 16 个 块 是 多 种 语言 ， 并 没有 按照 顺序 排列 。 默 认 的 是 16 ~32 
位 编码 ， 称 为 UTF-16。 一 种 称 为 UTF -8 的 变 长 编码 ， 将 ASCII 子 集 保持 为 8 位 ， 其 余 字 符 用 16 ~ 32 位 来 表 
不。UTF -32 使 用 32 位 表示 一 个 字符 。 更 多 内 容 请 参见 www. unicode org。 


1) 下 面 关 于 C 和 Java 中 字符 和 字符 串 的 陈述 娜 些 是 正确 的 ? 
A.C 中 一 个 字符 串 占用 的 内 存 是 Java 中 同样 字符 串 的 一 半 。 
B.C 和 Java 中 字符 囊 只 是 一 个 一 维 字符 数组 的 非 正 规 名 字 。 
C.C 和 Java 中 采用 nul (0) 来 标记 字符 串 的 结尾 。 
D. 对 字符 串 的 操作 ， 例 如 求 长 度 ， 在 C 中 比 在 Java 中 更 快 。 
2) 下 面 哪 种 类 型 的 变量 存放 1 000 000 000,o 占 用 的 内 存 空 间 最 大 ? 
A.C 语言 的 int 
B.C 语言 的 string 
C. Java 的 string 


2. 10 MPS 中 32 位 立即 数 和 地 址 的 寻 址 


虽然 保持 所 有 MIPS 指令 为 32 位 长 简化 了 硬件 ,但 有 时 使 用 32 位 常量 或 32 位 地 址 更 加 方便 。 
本 节 先 介绍 使 用 较 大 常量 的 一 般 解 决 方法 ,然后 描述 了 用 于 分 支 和 跳 转 指令 寻 址 的 优化 措施 。 


2. 10. 1 32 位 立即 数 


仿 管 常数 往往 比较 短 而 且 适 于 16 位 字段 ,但 有 时 它们 会 更 大 。MIPS 指令 集中 的 读 取 立即 数 
高 位 指令 1ui (load upper immediate) 专门 用 于 设置 寄存 器 中 常数 的 高 1 位 ， 允 许 后 续 指 令 设 轩 
常数 的 低 16 位 。 图 2-17 描述 了 1ui 的 操作 。 
加 载 32 位 常量 

加 载 下 面 这 个 32 位 常量 到 寄存 器 $s0 的 MIPS 汇编 代码 是 什么 ? 


Khmer 
Mongolian 
Limbu 

Tai Le 

Kangxi Radicals 
Hiragana 
Katakana 
Bopomofo 


Kanbun 


3 
B 


到 












Shavian Optical Character Recognition 


Byzantine Musical Symbols 
Musical Symbols 


Osmanya 


Cypriot Syllabary 
Tai Xuan Jing Symbols Arrows 
Yijing Hexagram Symbols 
Aegean Numbers 


Box Drawing 


Buhid Geometric Shapes 
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0000 0000 0011 1101 0000 i1001 0000 0000 
首先 ， 我 们 使 用 命令 lui 加 载 高 16 位 ,十进制 表示 是 61: 


lui $s0,61] #61 decimal =0000 0000 0011 1101 binary 


执行 上 面 的 指令 后 ， 寄 存 器 $s0 的 值 为 

0000 0000 0011 1101 0000 0000 0000 0000 

下 一 步 是 插入 低 16 位 ， 十进制 表示 是 2304: 

ori $s0, $s0,2304 #2304 decimal =0000 1001 0000 0000 


寄存 器 $s0 中 的 最 终 值 就 是 所 需要 的 值 : 


000 0000 0011 1101 0000 1001 0000 0000 
lui $t0,255 # $t0 is register 8 的 机 器 码 : 


001111 00000 01000 0000000011111111 


在 执行 ]ui 串 t0，255 后 寄存 如 串 t0 的 值 : 


2-17 ”1ui 指令 的 效果 
lui 指令 将 16 位 立即 数 常 量 值 存放 到 寄存 器 的 高 16 位 ， 低 16 位 用 0 填充 。 


编译 器 或 汇编 程序 必须 把 大 的 常数 分 解 为 若干 小 的 常数 然后 再 合并 到 一 个 寄存 绒 中 。 正 
如 你 想象 的 那样 ， 立 即 数字 段 大 小 的 限制 ， 无 论 在 取 / 存 数 指令 中 对 存储 器 的 地 址 还 是 在 立即 
数 指令 中 对 常数 都 可 能 带 来 问题 。 如 果 这 项 工作 由 汇编 程序 来 做 ， 如 MIPS 软件 ， 那 么 汇编 程 
序 必 须 有 一 个 可 用 的 临时 寄存 器 来 创建 长 整数 值 。 这 是 给 汇编 程序 保留 $at 寄存 器 的 一 个 
原因 。 

因此 ，MIPS 机 器 语言 的 符号 表示 不 再 受到 硬件 限制 ， 但 仍 受 汇编 程序 构造 者 选择 包括 的 内 
容 所 限 ( 见 2.12 节 )。 我 们 以 靠近 硬件 层 的 方式 解释 计算 机 的 体系 结构 ， 需 要 注意 的 是 ， 我 们 
所 使 用 汇编 程序 的 增强 扩展 语言 ， 在 实际 处 理 器 中 是 不 存在 的 。 

精 解 : 构造 32 位 常数 时 必须 小 心 。 指 令 addi 将 指令 最 左边 的 16 位 立即 数字 段 复制 到 一 个 字 的 
高 16 位 中 。2. 6 节 的 立即 数 远 辑 或 操作 (logical or immediate ) 把 0 读 到 高 16 位 中 ,所 以 可 被 汇编 程序 
用 于 和 lui 一 起 创建 32 位 常数 。 


<. 10. < ”分 支 和 跳 转 中 的 寻 址 


MIPS 跳 转 指 令 寻 址 采用 最 简单 的 寻 址 方式 。 它 们 使 用 最 后 一 种 MIPS 指令 格式 , 称 为 型 。J 
型 除了 6 位 操作 码 之 外 ,其 余 位 都 是 地 址 字段 。 所 以 ， 


] 10000 #9go to location 10000 


可 以 汇编 为 下 面 的 格式 (实际 中 要 更 加 复杂 一 些 ， 正 如 我 们 后 面 将 看 到 的 那样 ); 
6 位 26 位 

其 中 跳 转 操作 码 的 值 为 2， 跳 转 地 址 为 10000。 

和 跳 转 指令 不 同 ， 条 件 分 支 指令 除了 规定 分 支 地址 之 外 还 必须 指定 两 个 操作 数 。 因 此 
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bne $s0, $s1 ,Exit # go to Exit if $s0 $s1 
被 汇编 为 下 面 的 指令 ， 只 保留 了 16 位 用 于 指定 分 支 地 址 : 
pa 
6 位 5 位 5 位 16 位 


如 果 让 程序 地 址 适应 该 16 位 字段 ， 则 意味 着 任何 程序 都 不 能 大 于 25， 这 在 今天 来 说 太 小 ， 
因此 是 一 种 很 不 现实 的 选择 。 另 一 个 可 选 的 办 法 是 指定 一 个 总 是 加 到 分 支 地 址 上 的 寄存 器 ， 这 
样 分 支 指令 可 能 按 如 下 方式 计算 : 

程序 计数 器 = 寄存 器 + 分 支 地 址 

这 个 求 和 结果 允许 程序 的 大 小 达到 2”， 并 且 仍 能 使 用 条 件 分 支 ， 从 而 解决 了 分 支 地 址 大 小 

的 问题 。 随 之 而 来 的 问题 是 使 用 哪个 寄存 器 呢 ? 
”答案 取决 于 条 件 分 支 是 如 何 使 用 的 。 条 件 分 支 在 循环 和 f 语 句 中 都 可 以 找到 ， 它 们 倾向 于 
转 到 附近 的 指令 。 例如， 在 SPEC 基准 测试 程序 中 ， 大 概 一 半 条 件 分 支 的 跳 转 距离 小 于 16 条 指 
令 。 因 为 程序 计数 器 (program counter，PC) 包含 当前 指令 的 地 址 ， 如 果 我 们 使 用 PC 来 作为 增 
加 地 址 的 寄存 器 ， 我 们 可 转移 到 离 当 前 指令 距离 为 +2” 个 字 的 地 方 。 几 乎 所 有 循环 和 语句 都 
远 远 小 于 2 “个 字 ， 因 此 PC 是 一 个 理想 的 选择 。 

这 种 分 支 寻 址 形式 称 为 PC 相对 寻 址 9?。 正 如 在 第 4 章 中 将 会 看 到 的 那样 ， 提 前 递增 PC 来 指 
向 下 一 条 指令 会 对 硬件 带 来 很 多 方便 。 所 以 ，MIPS 寻 址 实际 上 是 相对 于 下 一 条 指令 的 地 址 
(PC +4) ， 而 不 是 相对 于 当前 指令 (PC)。 

像 近期 的 大 多 数 计算 机 一 样 ，MIPS 对 所 有 条 件 分 支 使 用 PC 相对 寻 址 ， 因 为 这 些 指令 的 跳 转 
目标 很 可 能 接 靠 近 其 分 支 地 址 。 另 一 方面 ， 跳 转 链接 指令 并 非 总 是 靠近 调用 者 的 过 程 ， 所 以 它们 
通常 使 用 其 他 寻 址 方式 。 因 此 ，MIPS 体系 结构 通过 使 用 跳 转 和 跳 转 链接 指令 的 本 型 格式 来 为 过 
程 调用 提供 长 地 址 。 

既然 所 有 MIPS 指令 都 是 4 字 节 长 ， 所 以 在 PC 相对 寻 址 时 所 加 的 地 址 被 设计 为 字 地 址 而 不 
是 罕 节 地 址 。 相 对 于 16 位 的 字 节 地 址 ，16 位 的 字 地 址 跳 转 范围 扩大 了 4 倍 。 同 样 地 ， 跳 转 指令 
的 26 位 字段 也 是 字 地 址 ， 它 可 以 表示 28 位 的 字 节 地 址 。 

精 解 : 因为 PC 是 32 位 ， 所 以 有 4 位 必须 来 自 于 此 转 指令 之 外 的 其 他 地 方 。MIPS 跳 转 指令 仅仅 代替 
PC 的 低 28 位 ， 而 高 4 位 保持 改变 。 装 载 器 和 链接 器 ( 见 2.12 节 ) 必须 十 分 小 心 以 避免 程序 超过 256 MB 
的 寻 址 界限 (6400 万 条 指令 ) ; 否则 ， 该 跳 转 必须 蔡 换 为 寄存 器 跳 转 指令 ， 并 在 执行 前 使 用 其 他 指令 将 完 
整 的 32 位 地 址 加 载 到 一 个 寄存 器 中 。 

在 机 器 语言 中 描述 分 支 偏 移 

假设 2.7.1 节 的 While 循环 语句 被 编译 成 下 面 的 MIPS 汇编 代码 ， 


Loop:s11 $t1, $s3,2 # Temp reg $tl1 =4* i 
add $ti, $t1, $s6 # $t1 =address of savel[ i] 
lw $t0,0( $t1) # Temp reg $t0 = savel[i] 
bne $t0, $s5,Exit # go to Exit if save[i]#¥k 
addi $s3 , $s3 ,1 # 寺 = 二 1 
Loop # go to Loop 


Exit: 


如 果 我 们 假设 把 loop 的 开始 位 置 放 在 内 存 的 80000 处 ， 那 么 该 循环 的 MIPS 机 器 代码 是 什么 呢 ? 
汇编 指令 和 它们 的 地 址 如 下 : 


加 ”PC 相对 寻 址 (PC-relative addressing) ; 一 种 寻 址 方式 ， 它 将 PC 和 指令 中 的 常数 相 加 作为 寻 址 结果 。 
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注意 MIPS 指令 使 用 字 节 寻 址 ， 所 以 相 邻 字 的 地 址 相差 4， 即 一 个 字 中 的 字 节 的 数量 。 第 4 
行 的 bne 指令 将 2 个 字 或 是 8 个 字 节 加 到 下 一 条 指令 地 址 (80016) 上 , 使 用 相对 下 一 条 指令 的 
偏 移 (8 +80016) 指明 跳 转 目标 ， 而 不 是 使 用 相对 该 分 支 指令 的 偏 移 (12 +80012)， 也 不 是 使 
用 完整 的 目的 地 址 《80024)。 最 后 一 行 的 跳 转 指 令 采 用 完整 的 地 址 (20000 x4 =80000) ， 对 应 
于 Loop 标签 。 

大 多 数 条 件 分 支 都 转移 到 一 个 附近 的 位 置 ， 但 有 时 也 会 转移 很 远 ， 距 离 超过 条 件 分 支 指令 
的 16 位 可 以 表示 的 范围 。 汇 编 器 的 解决 方法 就 像 处 理 对 大 地 址 或 大 常数 的 方法 一 样 : 插入 一 个 
跳 转 到 分 支 目 标的 无 条 件 跳 转 ， 并 将 条 件 取 反 以 便 由 分 支 决定 是 否 跳 过 该 无 条 件 跳 转 指令 。 

远 距离 的 分 支 转移 
假设 在 寄存 器 $s0 与 寄存 器 $sl 值 相等 时 需要 跳 转 ， 可 以 使 用 如 下 指令 ; 


bed $s0,$sl,Ll 


用 两 条 指令 替换 上 面 的 指令 ， 以 获得 更 远 的 转移 距离 。 
可 用 下 面 的 指令 替换 短 地 址 的 条 件 分 支 指令 : 
bne $s0,$sl,L2 
] L1 
L2 : 


2. 10.3 ”MIPS 寻 址 模式 总 结 


多 种 不 同 的 寻 址 形式 一 般 统 称 为 寻 址 模式 9?， 图 2-18 给 出 了 每 种 寻 址 模式 的 操作 数 如 何 识 
别 。MIPS 寻 址 模式 如 下 所 示 : 
1) 立即 数 寻 址 (immediate addressing) ， 操 作 数 是 位 于 指令 自身 中 的 常数 。 
2) 寄存 器 寻 址 (register addressing ) ， 操作 数 是 寄存 器 。 
3) 基 址 或 偏 移 寻 址 (base or displacement addressing ) ， 操 作 数 在 内 存 中 ， 其 地 址 是 指令 中 基 
址 寄存 器 和 常数 的 和 。 
4) PC 相对 寻 址 (PC-relative addressing) ， 地 址 是 PC 和 指令 中 常数 的 和 。 
5) 伪 直 接 寻 址 (pseudodirect addressing) ， 跳 转 地 址 是 指令 中 26 位 字段 和 PC 高 位 相连 而 成 。 
人 硬件, 软件 接口 
虽然 我 们 把 MIPS 系统 结构 按 32 位 地 址 描述 ， 但 是 几 乎 所 有 的 微 处 理 器 (包括 MIPS) 都 能 
进行 64 位 地 址 扩展 ( 见 光 盘 中 的 附录 下) 。 这 些 扩 展 主要 是 针对 大 型 程序 的 需要 。 指 令 集 的 扩展 
使 得 体系 结构 发 展 的 同时 ,保持 软件 和 下 一 代 体 系 结构 的 向 上 兼容 性 。 
注意 一 种 操作 可 以 使 用 不 止 一 种 的 寻 址 模式 。 例 如 ， 加 法 可 以 使 用 立即 数 寻 址 (addi) 和 
寄存 器 寻 址 (add)。 





加 寻 址 模式 (addressing mode) : 根据 对 操作 数 和 /或 地 址 的 使 用 不 同 加 以 区 分 的 多 种 寻 址 方式 中 的 一 种 ， 
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1、 立 即 数 寻 址 
oo] |" | mediate | 
2. 寄存 器 寻 址 


wl" [nT fo 站 


3. 基 址 寻 址 








5. 伪 直 接 寻 址 
| op Address 存储 器 





一 


图 2-18 MIPS 5 种 寻 址 模式 的 说 明 
阴影 部 分 为 操作 数 。 模 式 3 的 操作 数 在 内 存 中 ， 而 模式 2 的 操作 数 是 寄存 器 。 注 意 读 数 和 存 数 对 字 节 、 
半 字 或 字 有 多 种 版 本 。 模 式 1 的 操作 数 是 指令 自身 的 16 位 字段 。 模 式 4 和 模式 5 寻 址 的 指令 在 内 存 中 ， 模 
式 4 把 16 位 地 址 左 移 2 位 与 PC 相 加 ， 而 模式 5 把 26 位 地 址 左 移 2 位 与 PC 计数 器 的 高 4 位 相连 。 





2. 10.4 机 器 语言 解码 


有 时 候 必须 通过 逆向 工程 将 机 器 语言 恢复 到 最 初 的 汇编 语言 。 比 如 检查 “核心 转 储 ” (core 
dump) 时 。 图 2-19 描述 了 MIPS 机 器 语言 对 各 个 字段 的 编码 。 该 图 可 用 于 汇编 语言 和 机 器 语言 
之 间 的 手动 翻译 。 

机 器 码 解码 
下 面 这 条 机 器 指令 对 应 的 汇编 语言 语句 是 什么 ? 


O00af8020hnex 
第 一 步 是 将 十 六 进 制 转 换 到 二 进 制 ， 以 便 找到 操作 码 字 段 : 
(Bits: 31 28 26 5 之 0 ) 


0000 0000 1010 1111 1000 0000 0010 0000 
我 们 查看 操作 码 字 段 来 决定 指令 的 操作 类 型 。 参 腿 图 2-19， 当 31 ~29 位 是 000 有 具 28 ~26 位 
也 是 000 时 ， 它 是 及 型 指令 。 参 照 图 2-20， 将 该 二 进 制 指令 按照 R 型 指令 字段 重新 排列 ， 


op rs rt rd shamt funct 
O00000 00101 01111 10000 O00000 100000 


图 2-19 的 底部 确定 了 R 型 指令 的 操作 。 在 本 例 中 , 5~3 位 是 100 而 2~0 位 是 000， 因 此 该 
二 进 制 指令 为 add 指令 。 

下 面 我 们 通过 查找 字段 值 来 解码 指令 的 剩余 部 分 。rs 字段 的 十 进 制 值 是 5, rt 是 15， rd 是 16 (shamt 
未 使 用 ) 。 图 2-14 说 明 这 些 数 字 表示 寄存 器 $al、$t7 和 $s0。 现在 可 以 给 出 转换 后 的 汇编 指令 : 


add $s0, $al, $+t7 
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op (31:26) 


31 -29 101 6(110) 7(111) 
31 -29 | 04000) 1(101) 24010 ) 3(011 ) 4(100) 5(101) 


oem 


SE 和 
~ 高 位 










号 立即 数 






2 取 无 符号 | 取 无 符号 
字 人 
字 节 


半 字 


7(111) 


EEC 





2-19 MIPS 指令 解码 
该 标记 根据 行 和 列 确 定 字段 的 值 。 例 如 ， 图 的 顶部 在 第 4 行 (指令 的 第 31 ~ 29 位 为 100; ) 第 三 列 (指令 的 
第 28 ~26 位 为 011,) 描述 了 取 字 指令 ， 因此 相应 操作 码 字段 (第 31 ~26 位 ) 的 (R 型 ) 值 是 100011;。 下 
划 线 表示 该 字段 在 其 他 地 方 被 使 用 。 例 如 ， 第 0 行 第 0 列 (op =000000:) 的 R 型 在 图 的 底部 定义 。 因 此 ， 底 
部 第 4 行 第 2 列 的 subtract 意味 着 指令 funct 字段 (第 5 ~0 位 ) 是 100010, 而 操作 码 字段 (第 31 ~26 位 ) 
是 000000;。 第 2 行 第 1 列 的 FlPt 在 第 三 张 的 图 3 ~ 18 中 定义 。 Bltz/gez 是 附录 B 中 4 条 指令 的 操作 码 : 
bltz、bgez、blitzal 和 bgezal。 附 录 B 涵盖 所 有 的 指令 。 
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图 2-20 给 出 了 所 有 MIPS 指令 的 格式 。 第 2.2 节 的 图 2-1 汇总 了 本 章 出 现 的 所 有 汇编 指令 。 





2-20 MIPS 指令 的 格式 


小 测验 


1) 


kt 
> 


Wu 
An 


在 MIPS 中 条 件 分 支 的 地 址 范围 (KE=1024) 是 多 大 ? 
A， 地 址 在 0~64K-1 之 间 

B. 地 址 在 0~256K-1 之 间 

C. 分 文 前 后 地 址 范围 各 大 约 32 Kk 

D. 分 文 前 后 地 址 范围 各 大 约 128 民 

在 MIPS 中 跳 转 和 跳 转 链接 指令 的 地 址 范围 (M = 1024 K) 是 多 大 ? 
A. 地 址 在 0~64 M -1 之 间 

B. 地 址 在 0 ~256 M -1 之 间 

C. 分 文 前 后 地 址 范围 各 大 约 32 M 

D. 分 支 前 后 地 址 范围 各 大 约 128 M 

E. 由 PC 提供 高 6 位 地 址 的 64 M 大 小 的 块 中 任意 地 址 
F. 由 PC 提供 高 4 位 地 址 的 256 M 大 小 的 块 中 任意 地 址 
机 姻 指 令 0000 0000,。 对 应 的 MIPS 汇编 语言 指令 是 什么 ? 
A.J 

B.R 型 

C. addi 

D. s11 

E. mfcO 

F. 未 定义 的 操作 码 : 没有 对 应 0 的 合法 指令 


2. 11 并行 与 指令 : 同步 


当 任 务 之 间 相 互 独立 的 时 候 ， 任 务 的 并 行 执行 是 比较 容易 的 。 但 往往 任务 之 间 需 要 相互 协 


作 ， 这 种 协作 通常 意味 着 某 些 任务 写 的 结果 晨 其 他 任务 需要 读 取 的 值 。 这 时 执行 读 任务 的 一 方 
要 知道 写 任 务 什么 时 候 完成 了 写 操 作 ， 才 能 安全 地 读 回 数据 。 就 是 说 ， 任 务 之 间 需 要 同步 《syn- 
chronize) ， 否 则 就 有 发 生 数据 竞争 的 危险 ， 导 致 读数 据 错误 而 引起 程序 运行 结果 的 改变 。 


例如 ， 回 忆 第 1 章 1.6 节 所 提 到 的 8 个 作者 共同 写作 一 个 故事 的 例子 。 假 设 一 个 作者 要 写 


民 结 ， 他 要 阅读 所 有 之 前 的 章节 。 因 此 ， 他 必须 知道 其 他 作者 什么 时 候 可 以 完成 各 自 的 章节 ， 
然后 他 再 撰写 总 结 ， 这 样 他 就 不 用 担心 写 好 总 结 后 其 他 作者 再 对 各 自 章节 进行 修改 。 所 以 ， 
他 们 就 需要 很 好 地 同步 各 个 章节 撰写 和 阅读 的 过 程 ， 这 样 总 结 才能 和 前 面 章节 中 所 写 的 内 容 
相 一 致 。 


日 ”数据 竞争 (data race) : 假如 来 自 不 同 线程 的 两 个 内 存 地 址 访问 同一 个 地 址 ， 它们 连续 出 现 ， 并 且 至 少 其 中 一 个 


是 写 操 作 ， 那 么 这 两 个 存储 访问 形成 数据 竞争 。 
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在 计算 中 ， 同 步 机 制 要 依赖 硬件 提供 的 同步 指令 ， 这 些 指令 可 由 用 户 调用 。 本 节 我 们 重点 讨 
论 加 锁 (lock) 和 解锁 (unlock) 同步 操作 的 实现 。 采 用 加 锁 和 人 解锁 可 以 直接 创立 直接 一 个 仅 允 
许 单 个 处 理 器 操作 的 区 域 ， 叫 做 互 斥 《mutual exclusion) 区 。 更 复杂 的 同步 机 制 实 现 也 与 此 
类 似 。 

在 多 处 理 器 中 实现 同步 需要 一 组 硬件 原 语 ， 提 供 原 子 读 和 原子 写 存 储 器 单元 的 能 力 ， 使 得 
在 进行 存储 器 原子 读 或 原子 与 操作 时 任何 其 他 操作 都 不 得 插入 。 如 果 没 有 这 样 的 硬件 原 语 ， 那 
么 建立 同步 机 制 的 代价 将 会 变 得 很 高 ， 并 且 随 着 处 理 器 数量 的 增加 情况 将 更 为 恶化 。 

建立 基本 硬件 原 语 有 若干 可 选 的 方案 ， 这 些 方案 都 可 以 实现 原子 读 和 原子 写 的 功能 ， 并 能 
用 茶 种 方法 表示 这 些 操作 是 否 为 原子 操作 。 通 常 ， 体 系 结构 设计 人 员 并 不 希望 基本 硬件 原 语 被 
用 户 使 用 ， 而 是 希望 这 些 原 语 被 系统 程序 员 用 来 建立 同步 库 ， 建 立 同 步 库 的 过 程 常常 是 复杂 而 
艰难 的 。 

我 们 用 原子 交换 原 语 (atomic exchange or atomic swap) 来 演示 如 何 建立 基本 同步 机 制 。 这 个 
原 语 是 将 寄存 器 中 的 一 个 值 和 存储 器 中 的 一 个 值 相互 交换 。 

为 了 展示 该 原 语 建立 同步 原理 的 基本 过 程 ， 假 定 使 用 存储 器 中 某 个 单元 来 表示 一 个 锁 变 
量 : 其 数值 为 0 时 表示 解锁 ， 为 1 时 表示 加 锁 。 一 个 处 理 器 尝试 对 锁 单 元 加 锁 ， 方 法 是 用 一 
个 寄存 器 中 的 1 与 该 锁 单 元 的 值 进行 交换 。 交 换 以 后 该 锁 单 元 的 新 值 为 1， 返回 值 ( 锁 单 元 的 
原 值 ) 如 果 是 1， 表 明 这 个 锁 已 被 其 他 处 理 器 占用 ; 否则 返回 值 为 0， 表 示 锁 是 自由 的 ， 尝 试 
加 锁 成 功 。 此 时 锁 单元 已 被 修改 成 1， 以 防止 任何 其 他 处 理 器 再 来 占用 。 发 出 的 竞争 交换 指令 
也 获得 值 0。 

例如 ， 考 虚 有 两 个 处 理 器 同时 尝试 进行 交换 操作 ， 它 们 的 竞争 关系 就 会 被 破坏 。 因 为 其 中 只 
能 有 一 个 处 理 器 先 执行 交换 操作 ， 并 且 返 回 0。 那 么 第 二 个 处 理 器 执行 完 交 换 操 作 的 时 候 返 回 值 
就 变 成 了 1。 用 交换 原 语 实现 同步 的 关键 是 操作 的 原子 性 : 交换 操作 是 不 可 分 割 的 ， 并 且 由 硬件 
对 两 个 同时 执行 的 交换 操作 进行 排序 。 有 可 能 两 个 处 理 器 同时 尝试 置 位 同步 变量 ,但 这 两 个 处 
理 船 认为 它们 同时 成 功 设 置 了 同步 变量 是 不 可 能 的 。 

实现 单个 的 原子 存储 器 操作 给 处 理 器 的 设计 者 带 来 了 若干 挑战 ， 因 为 这 要 求 存储 器 的 读 、 
写 操作 都 是 单个 的 、 不 可 被 打 断 的 指令 。 

一 种 可 行 的 方法 是 采用 指令 对 ， 其 中 第 二 条 指令 返回 一 个 表明 这 对 指令 是 否 原子 执行 的 标 
志 值 。 假 如 处 理 器 的 操作 都 是 在 这 对 指令 之 前 或 之 后 执行 ， 这 对 指令 就 是 原子 的 。 因 此 ， 当 一 个 
指令 对 是 原子 的 ， 没 有 哪个 处 理 器 能 改变 这 两 个 指令 执行 之 间 的 数据 值 。 

在 MIPS 处 理 器 中 这 一 指令 对 包括 一 条 叫做 链接 取 数 (load linked) 的 特殊 取 数 指令 和 一 条 
叫做 条 件 存 数 〈store conditional) 的 特殊 存 数 指令 。 我 们 顺序 的 使 用 这 两 条 指令 ， 当 由 链接 取 数 
指令 所 指定 的 锁 单元 的 内 容 ， 在 相同 地 址 的 条 件 存 数 指令 执行 前 已 被 改变 的 话 ， 那 么 条 件 存 数 
指令 就 执行 失败 。 我 们 定义 条 件 存 数 指令 完成 以 下 功能 : 保存 寄存 器 的 值 ， 并 且 如 果 执 行 成 功 则 
将 寄存 器 的 值 修改 为 1 ， 关 黑 拓 败 修改 为 0。 因 为 链接 取 数 指令 返回 锁 单 元 的 原始 值 ， 条 件 存 数 
指令 执行 成 功 的 时 候 才 返回 1， 下 面 的 指令 序列 实现 了 存储 器 单元 的 原子 交换 。 存 储 器 单元 的 地 
址 由 $sl 中 的 值 指出 。 





四 





try :add $t0, 8Szero,$s4 ;COpY exchange value 
11 $t1i,0¢ $s1) ;load linked 
Se $t0 ,0( $s1) ;Store conditional 
beq  $t0, $zero,try ;branch store fails 
add $s4, $zero, $t1 ;Put load value in $s4 


在 指令 序列 的 最 后 ， 寄 存 器 $s4 中 的 值 和 $si 指向 的 锁 单元 的 值 发 生 了 原子 交换 。 存 11 和 
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sc 两 条 指令 之 间 的 任何 时 候 有 处 理 器 插入 ， 并 修改 了 该 锁 单 元 的 值 ， 指 令 sc 都 会 将 $t0 置 为 
0， 引 起 这 段 指令 序列 重新 执行 。 

精 解 ; 尽管 我 们 讲述 的 同步 是 在 多 处 理 器 系统 中 的 ， 但 是 原子 操作 在 单个 处 理 器 上 运行 的 操作 系统 处 
理 多 个 进程 时 也 是 十 分 有 用 的 。 在 单 处理 器 中 ,为 了 保证 执行 不 被 任何 事件 所 和 干扰， 条件 存 指 令 在 处 理 器 
两 条 指令 之 间 进 行 上 下 文 切换 (context switch) 时 也 会 失败 〈 见 第 5 章 )。 

因为 在 链接 取 数 指令 执行 之 后 任何 试图 修改 锁 单元 值 的 操作 或 者 任何 异常 都 将 导致 条 件 存 数 指令 执行 
失败 ， 所 以 在 选择 11 和 sc 之 间 的 指令 时 就 要 格外 注意 。 特 别 需 要 注意 的 是 允许 使 用 的 并 且 不 会 造成 问题 
的 只 有 寄存 器 - 寄存 器 指令 ， 而 处 理 器 可 能 由 于 重复 的 页 错误 而 导致 始终 无 法 完成 se 指令 ， 从 而 使 处 理 器 
处 于 一 种 死 锁 的 状态 。 另 外 ， 链 接 取 数 和 条 件 存 数 之 间 的 指令 数 一 定 要 尽 可 能 的 少 ， 这 样 才 可 以 减少 不 相 
关 的 事件 或 者 竞争 资源 的 处 理 器 所 引起 条 件 存 数 指令 执行 失败 的 频率 。 

链接 取 数 /条 件 存 数 机 制 的 优点 是 : 可 以 通过 它们 来 构造 其 他 的 诸如 原子 比较 和 交换 ( atomic com- 
pare and swap) 或 者 原子 取 后 加 (atomic fetch-and-increment) 等 同步 原 语 。 这 些 同 步 原 语 可 以 被 用 在 一 
些 并 行 编程 模型 中 。 这 些 同步 原 语 的 实现 需要 在 11 指令 和 sc 指令 之 间 插 入 更 多 的 指 邻 。 
小 测验 

什么 时 候 才 会 用 到 像 链接 取 数 (load linked) 和 条 件 存 数 (store conditional) 这 样 的 原 语 ? 

A.， 当 一 个 并 行程 序 中 相互 协作 的 线程 需要 同步 以 获得 对 共享 数据 的 正确 的 读 写 行为 时 

B， 当 运行 在 单 处 理 器 上 的 相互 协作 的 处 理 过 程 需 要 同步 以 获得 对 共享 数据 的 正确 的 读 写 行为 时 


<. 12 翻译 并 执行 程序 
本 市 描述 了 将 存储 在 硬盘 文件 中 的 C 程序 转换 为 可 执行 程序 的 四 个 步骤 ， 图 2-21 所 示 是 语 


言 翻 译 的 层次 。 尽 管 某 些 系 统 可 能 合并 部 分 步 又 以 减少 转换 时 间 ， 但 从 逻辑 上 讲 ， 这 四 个 步骤 是 
程序 转换 流程 所 必 经 的 四 个 阶段 。 本 节 将 根据 这 种 翻译 层次 进行 描述 。 







汇编 语言 程序 





目标 文件 : 机 器 语言 模块 





目标 文件 : 库 程 序 〈 机 器 语言 ) 





可 执行 文件 : 机 器 语言 程序 


图 2-21 C 语言 的 翻译 层次 
用 高 级 语言 编写 的 程序 首先 需要 被 编译 成 为 汇编 语言 ， 然后 被 汇编 成 机 器 语言 组 成 的 目标 文件 。 链 接 器 将 多 个 
模块 和 库 程 序 组 合 在 一 起 解析 所 有 的 引用 。 加 载 器 将 可 执行 程序 加 载 到 内 存 的 适当 位 置 ， 然 后 处 理 器 就 可 以 执行 
了 。 为 了 加 快 翻译 的 速度 ， 某 些 步 又 被 跳 过 或 和 其 他 步骤 组 合 在 一 起 。 一 些 编译 器 直接 产生 目标 模块 ， 一 些 系 统 
使 用 带 连 接 功能 的 加 载 器 直接 完成 后 面 两 步 。 为 了 确定 文件 的 类 型 ，UNIX 使 用 文件 的 后 级 ，x.c 代表 C 源 文件 ， 
区 ,SS 表示 汇编 文件 ， XO 表示 目标 文件 ， X.a 表示 静态 链接 库 ， .SO 表示 动态 链接 库 ， 默认 情况 下 a .Out 表示 
可 执行 文件 。MS- DOS 使 用 后 缀 .CcC，.ASM, .0BJ, .LIB, .DLL 和 .EXE 来 完成 同样 的 功能 。 
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2. 12.1 编译 器 


编译 器 将 C 程序 转换 成 一 种 机 器 能 理解 的 符号 形式 的 汇编 语言 程序 (assembly language pro- 
gram) 。 高 级 语言 编写 的 程序 比 使 用 汇编 语言 编写 代码 少 得 多 ， 所 以 程序 员 效 率 更 高 。 

1975 年 ， 因 为 存储 器 容量 较 小 并 且 编译 器 效率 不 高 ， 所 以 许多 操作 系统 和 汇编 器 都 用 汇编 
语言 编写。 如 今 单 DRAM 芯片 容量 增长 500 000 倍 ， 减 轻 了 人 们 对 程序 大 小 的 关注 ， 并 且 今 天 
优化 的 编译 右 能 够 产生 出 几乎 与 一 个 汇编 语言 专家 所 写 的 程序 一 样 好 的 汇编 程序 ， 对 于 大 型 程 
序 有 时 甚至 效果 更 好 。 


2. 12.2 汇编 器 


因为 汇编 语言 对 于 高 层次 软件 是 一 个 接口 ， 所 以 汇编 器 也 能 够 处 理 一 些 机 器 语言 指令 的 常 
见 变种 ， 就 像 这 些 变种 是 它 自己 的 指令 一 样 。 硬 件 不 需要 实现 这 些 指 令 ， 然 而 它们 在 汇编 语言 
的 存在 简化 了 程序 转换 和 编程 。 这 类 指令 称 为 伪 指令 ” ( pseudoinstructions ) 。 

如 前 所 述 ，MIPS 硬件 确保 寄存 器 $zero 保持 0 值 。 即 一 旦 使 用 寄存 器 $zero， 它 都 提供 0， 
而 且 程序 员 不 能 修改 寄存 器 $zero 的 值 。 寄 存 器 $zero 用 于 生成 汇编 语言 指令 move，move 的 
功能 是 将 一 个 寄存 器 中 的 内 容 复制 到 另 一 个 中 。 因 此 即使 MIPS 体系 结构 中 不 存在 这 条 指令 ， 
MIPS 汇编 右 也 能 够 识别 它 : 

move $t0,$tl # register $t0 gets register $t1 

汇编 右 将 这 条 汇编 语言 指令 转换 成 功能 等 价 的 如 下 机 器 语言 指令 : 

add $t0, $zero, $t1 #register $t0 gets 0 +register $t1 


在 2. 10. 1 节 的 例子 中 提 到 ，MIPS 汇编 器 将 blt (branch on less than ， 小 于 则 分 支 ) 转换 成 
两 条 指令 : slt 和 bne。 其 他 例子 包括 bgt 、bge 和 ble。 它 也 将 一 个 到 远 距离 的 分 支 指令 拆 成 
一 个 分 支 指令 和 一 个 跳 转 指 令 。 如 前 所 述 ，MIPS 汇编 器 允许 将 32 位 常量 加 载 到 一 个 寄存 器 中 ， 
不 用 考虑 立即 数 指令 的 16 位 限制 。 

总 的 来 说 ， 伪 指令 使 MIPS 拥有 比 硬件 所 实现 的 更 为 丰富 的 汇编 语言 指令 集 。 唯 一 的 代价 是 
保留 了 一 个 由 汇编 器 使 用 的 寄存 器 $at。 如 果 你 打算 写 汇 编程 序 ， 请 使 用 伪 指 令 来 简化 你 的 任 
务 。 为 了 理解 MIPS 体系 结构 并 保证 获得 最 好 的 性 能 ， 可 以 学 习 图 2-1 和 图 2-19 中 真正 的 MIPS 
指令 。 

汇编 器 同样 接受 不 同 基数 的 数字 。 除 了 二 进 制 和 十 进 制 ， 它 们 通常 还 使 用 比 二 进 制 更 为 紧 
姿 ， 而 又 容易 转化 为 位 模式 的 基数 。MIPS 汇编 器 使 用 十 六 进 制 。 

这 种 特性 相当 方便 ， 但 是 汇编 器 的 主要 任务 是 汇编 成 机 器 代码 。 汇 编 器 将 汇编 语言 程序 转 
换 成 目标 文件 (object 包 e) ， 它 包括 机 器 语言 指令 、 数据 和 指令 正确 放 和 内存 所 需要 的 信息 。 

为 了 产生 汇编 语言 程序 中 每 条 指令 对 应 的 二 进 制 表示 ， 汇编 器 必须 处 理 所 有 标号 对 应 的 地 
址 。 汇 编 器 将 分 支 和 数据 传输 指令 中 用 到 的 标号 都 放 人 -一个 符号 表 @ (symbol table) 中 。 正 如 你 
所 想 的 ， 这 个 表 由 标号 和 地 址 成 对 构成 。 

UNIX 系统 中 的 目标 文件 通常 包含 以 下 六 个 不 同 的 部 分 ; 

。 目标 文件 头 ， 描 述 目标 文件 其 他 部 分 的 大 小 和 位 置 。 


日 ”汇编 语言 (assembly language) ;一 种 符号 语言 ， 能 被 翻译 成 二 进 制 的 机 器 语言 。 
加 ” 伪 指 令 〈pseudoinstruction) ， 汇编 语言 指令 的 一 个 变种 ， 通常 被 看 做 一 条 汇编 指令 。 
白 符号 表 (symbol table) : 一 个 用 来 匹配 标记 名 和 指令 所 在 内 存 字 的 地 址 的 列表 。 
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。 正文 段 ， 包 含 机 符 语 诗 代 码 。 

。 静态 数据 段 ， 包含 在 程序 生命 周期 内 分 配 的 数据 。( UNIX 系统 允许 程序 使 用 静态 数 
据 ， 它 存在 于 整个 程序 中 ; 也 允许 使 用 动态 数据 ， 它 随 程序 的 需要 而 增长 或 缩小 。 
见 图 2-13 ) 。 

e 重 定位 信息 ,标记 了 了 一些 在 程序 加 载 进 内 存 时 依赖 于 绝对 地 址 的 指令 和 数据 。 

。 符 忠 表 ， 包 含 未 定义 的 剩余 标记 ， 如 外 部 引用 。 

调试 信息 ， 包 含 一 份 说 明 目 标 模块 如 何 编译 的 简明 描述 ， 这 样 ， 调 试 器 能 够 将 机 器 指令 

关联 到 C 源 文件 ， 并 使 数据 结构 也 变 得 可 读 。 

下 一 小 市 描述 了 如 何 链 接 已 经 汇编 完成 的 子 程序 ， 如 库 程 序 。 


2. 12. 3 链接 器 


到 目前 为 止 我 们 所 描述 的 内 容 表明 ， 对 于 源 程序 任意 一 行 代码 的 修改 都 需要 重新 编译 和 汇 
编 整 个 程序 。 全 部 重新 翻译 是 对 计算 资源 的 严重 浪费 。 这 种 重复 对 于 标准 库 程 序 尤 为 浪费 ， 因 为 
程序 员 要 编译 和 汇编 那些 在 定义 上 几乎 从 未 改变 过 的 过 程 。 另 一 种 方法 是 单独 编译 和 汇编 每 个 
过 程 ， 以 使 得 某 一 行 代码 的 改变 只 需要 编译 和 汇编 一 个 过 程 。 这 种 方法 需要 一 个 新 的 系统 程序 ， 
称 为 链接 编辑 器 或 链接 器 S， 它 把 所 有 独立 汇编 的 机 器 语 言 程序 “拼接 ”在 一 起 。 

链接 器 的 工作 分 三 个 步 又: 

1) 将 代码 和 数据 模块 象征 性 地 放 人 和 人 内存。 

2) 决定 数据 和 指令 标签 的 地 址 。 

3) 修补 内 部 和 外 部 引用 。 

链接 怖 使 用 每 个 目标 模块 中 的 重 定位 信息 和 符号 表 ， 来 解析 所 有 未 定义 标签 。 这 种 引用 发 
生 在 分 支 指令 、 跳 转 指 令 和 数据 寻 址 处 ， 所 以 这 个 程序 的 工作 非常 像 一 个 编辑 器 : 它 寻 找 所 有 旧 
地 址 并 用 新 地 址 取代 它们 。 编 辑 是 “链接 编辑 器 ”或 链接 器 名 字 的 简称 。 采 用 链接 器 的 原因 是 
修补 代码 比重 新 编译 和 汇编 要 快 得 多 。 

如 采 所 有 外 部 引用 都 解析 完 ， 链 接 器 接着 决定 每 个 模块 将 要 占用 的 内 存 位 置 。 回 忆 2. 8.4 节 
的 图 2-13， 它 描述 了 MIPS 在 内 存 中 为 程序 和 数据 分 配 空间 的 方式 。 因 为 文件 是 单独 汇编 的 ， 所 
以 汇编 吕 不 可 能 知道 该 模块 的 指令 和 数据 相对 于 另 一 个 模块 而 言 将 会 被 放 到 哪里 。 当 链接 器 将 
一 个 模块 放 到 内 存 中 的 时 候 ， 所 有 绝 时 引用 (absolute reference) ， 即 与 寄存 器 无 关 的 内 存 地 址 必 
须 重 定位 以 反映 它 的 真实 地 址 。 

链接 句 产 生 一 个 可 执行 文件 ”， 它 可 以 在 一 台 计 算 机 上 运行 。 通 常 ， 这 个 文件 与 目标 文件 具 
有 相同 的 格式 ,但 是 它 不 包含 未 解决 的 引用 。 具 有 部 分 链接 的 文件 是 可 能 的 ， 如 库 程序 ， 在 目标 
文件 中 仍 含有 未 解决 的 地 址 。 

项 缠 目标 文件 的 链接 

将 下 面 的 两 个 目标 文件 链接 。 给 出 最 终 可 执行 文件 中 前 几 条 指令 对 应 的 更 新 过 的 地 址 。 沪 
了 便于 理解 ,我们 使 用 汇编 语言 来 表示 指令 ,在 实际 文件 中 ,这些 指令 由 数字 表示 。 

注意 目标 文件 中 ， 我 们 已 将 必须 在 链接 进程 中 更 新 的 地 址 和 标记 高 亮 显示 了 ， 分 别 是 引用 
过 程 A 和 和 过程 昌 的 地 址 的 指令 ， 以 及 引用 数据 XxX 和 和 阅 的 地 址 的 指令 。 


@ ”链接 器 〈linker) ; 它 是 一 个 系统 程序 ， 它 把 各 个 独立 汇编 的 机 器 语言 程序 组 合 起 来 并 且 解 决 所 有 未 定义 的 村 ; 
最 后 生成 可 执行 文件 。 有 得， 

已 可 执行 文件 executable file) : 一 个 具有 目标 文件 格式 的 功能 程序 ， 不 包含 未 解决 的 引用 。 它 可 以 包含 符号 去 和 
调试 信息 。“ 条 离 的 可 执行 程序 ”不 包含 这 些 信息 ， 可 能 包含 加 载 器 所 需 的 重 定 位 信息 


目标 文件 头 


正文 段 


汝 


数据 
重 定位 信息 


淋 


符号 


目标 文件 头 


正文 段 


数据 段 


重 定位 信息 


符号 表 
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xx lai 

数据 大 小 
| 
EE 
EC Two 
EEE 
0 
I 
地 址 
EE >- 

数据 大 小 
0 | 
4 ia 
EC 
一 间 一 一 天 二 

时 
vv ThT- 
rm ll =- 


需要 找到 store 指令 中 标号 为 Y 的 变量 的 地 址 和 jal 指令 中 过 程 A 的 地 址 。 


从 28.4 节 的 图 2-13 中 ,我 们 可 以 看 到 正文 段 从 地 址 400 000 开始 而 数据 段 从 地 址 1000 0000i 开 
始 。 过 程 A 的 正文 被 放置 在 第 一 个 地 址 而 它 的 数据 被 放置 在 第 二 个 地 址 。 过 程 A 的 目标 文件 头 表明 其 
正文 段 大 小 是 100,;s 字 节 而 数据 段 大 小 是 20,。 字 节 ， 这 样 过 程 B 的 正文 段 开始 地 址 就 是 40 0100,。 ， 数 据 


段 开 始 地 址 是 1000 0020,。。 
可 执行 文件 头 
正文 大 小 
数据 大 小 


30016 

5016 

指令 

lw $a0,80001s ($gp) 
jal 40 0100，， 


FH 
+ 
沽 


3 


3 


0100,s。 | sw $ai,8020,, {$gp) 


可 执行 文件 头 


洋 
鱼 
本 
1 
汪 


: 
5S 


3 
S 


: |a 


依赖 


依赖 


过 程 A 需要 找到 load 指令 中 标号 为 X 的 变量 的 地 址 和 jal 指令 中 过 程 B 的 地 址 。 过 程 昌 


jal 400 000，。 
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现在 链接 器 更 新 了 指令 的 地 址 字段 。 它 使 用 指令 类 型 字段 得 到 待 编辑 地 址 的 格式 。 这 里 共 
有 两 种 类 型 : 

1) jal 类 型 比较 简单 。 因 为 它们 使 用 伪 直 接 寻 址 。 对 于 地 址 40 0004,。 处 的 jal， 其 地 址 字 
段 是 400100,。( 程 序 B 的 地 址 )， 而 地 址 400104,, 处 的 jal 的 地 址 字段 是 400000,。( 程 序 和 的 地 
址 )。 

2) 存 取 数 指令 对 应 的 地 址 更 为 复杂 ， 因 为 它们 和 和 基 址 寄存 天 有 关 。 本 例 使 用 全 局 指针 作为 
基 址 寄存 器 。 图 2-13 中 表明 $gp 的 初始 值 为 1000 8000,。。 为 了 得 到 地 址 1000 0000,。( 字 X 的 地 
址 ) ， 我 们 设置 位 于 地 址 40 0000s 处 的 1w 的 地 址 字段 中 为 8000。。 同 样 ， 为 了 得 到 地 址 
1000 0020,。( 字 YY 的 地 址 )， 可 以 设置 位 于 地 址 400100ie 处 的 sw 的 地 址 字段 中 为 8020,。。 

精 解 : 加 忆 前 面 讲 过 MIPS 指令 是 按 字 对 齐 的 。 所 以 jal 指令 丢弃 最 右 侧 2 位 来 增加 指令 寻 址 范 
围 。 这 样 ， 它 就 可 以 使 用 26 位 来 产生 一 个 28 位 的 字 节 地 址 。 因 此 ， 本 例 中 jal 指令 的 低 26 位 
存放 的 实际 地 址 是 10 0040,, ， 而 不 是 40 0100,,。 


2. 12. 4 ”加载 器 


现在 可 执行 文件 已 经 在 磁盘 中 ， 操 作 系统 可 以 将 其 读 人 内 存 并 启动 执行 它 。 在 UNIX 系统 
中 ， 加 载 器 ”按照 如 下 步骤 工作 : 

1) 读 取 可 执行 文件 头 来 确定 正文 段 和 数据 段 的 大 小 。 

2) 为 正文 和 数据 创建 一 个 足够 大 的 地 址 空间 。 

3) 将 可 执行 文件 中 的 指令 和 数据 复制 到 内 存 中 。 

4) 把 主 程序 的 参数 (如果 存在 ) 复制 到 栈 顶 。 

5) 初始 化 机 器 寄存 器 ， 将 栈 指针 指向 第 一 个 空位 置 ，; 

6) 跳 转 到 启动 例 程 ， 它 将 参数 复制 到 参数 寄存 器 并 且 调 用 程序 的 main 函数 。 当 main 函数 
返回 时 ， 局 动 例 程 通过 系统 调用 exit 终止 程序 。 

附录 B 中 的 B. 3 小 节 和 B. 4 小 节 更 加 详细 的 描述 了 链接 器 和 加 载 器 。 


2. 12.5 动态 链接 库 


本 人 小节 的 第 一 部 分 将 描述 程序 运行 前 链接 库 文 件 的 传统 方法 。 尽 管 这 种 静态 的 方法 是 最 快 
的 调用 库 程 序 的 办 法 ， 但 它 有 以 下 缺点 : 

。 库 程序 成 为 可 执行 代码 的 一 部 分 。 这 样 如 果 发 布 新 版 本 的 库 以 修正 一 些 错误 或 支持 新 的 

硬件 设备 ， 静 态 链接 的 程序 中 使 用 的 还 是 旧版 本 。 

” 在 程序 运行 时 ， 尽 管 可 能 不 会 使 用 库 中 的 所 有 部 分 ， 但 它们 还 是 会 被 全 部 加 载 进 来 。 相 

对 程序 而 言 库 可 能 会 很 大 ， 例如， 标准 的 C 库 有 2.5 MB。 

这 些 不 足 导致 了 动态 链接 库 的 产生 ， 也 就 是 说 ， 直 到 程序 运行 的 时 候 ， 这 些 库 例 程 才 会 被 
链接 并 加 载 。 程 序 和 库 例 程 都 会 在 非 局 部 的 过 程 和 名 字 中 保存 额外 的 信息 。 在 最 初版 本 的 DIL 
中 ， 加 载 器 调用 一 个 动态 链接 器 ， 使 用 文件 中 的 额外 信息 来 找到 适当 的 库 并 且 更 新 所 有 外 部 
引用 。 

最 初版 本 DLL 的 缺点 是 它 仍 将 链接 库 中 所 有 程序 运行 时 可 能 调用 的 例 程 ， 而 不 是 仅仅 链接 
程序 运行 时 实际 调用 的 例 程 。 由 此 产生 DLL 的 晚 过 程 链 接 (lazy procedure linkage) 版 本 ,该 版 
本 中 每 个 例 程 只 有 在 它 被 调用 后 才 被 链接 。 


© 加 载 器 (loader) : 把 目标 程序 装载 到 内 存 中 以 准备 运行 的 系统 程序 。 
© 动态 链接 库 ( dynamically linked libraries，DLL) ， 在 程序 执行 过 程 中 才 被 链接 的 库 例 程 。 


88 .第 2 章 指令 ; 计算 机 的 语言 


就 像 这 个 领域 中 的 许多 创新 一 样 ， 这 个 技巧 采用 了 一 种 间接 的 方法 。 图 2-22 展示 了 该 技术 。 
它 以 个 非 局 部 例 程 开始 ， 该 例 程 的 末尾 调用 了 一 组 虚 例 程 ， 每 个 非 局 部 例 程 都 有 一 个 人 口 。 每 
个 虚 入 口 都 包含 一 个 间接 跳 转 。 

第 次 调用 库 例 程 的 时 候 ， 程 序 调 
用 庶 入 口 然后 执行 间接 跳 转 。 它 通过 将 | ia | J 
一 个 数字 放 入 寄存 器 来 识别 所 需 的 库 例 | | 
程 ， 然 后 跳 转 到 动态 链接 器 或 加 载 器 。 
链接 器 或 加 载 器 找到 所 需 的 例 程 ， 将 其 
重 映射 并 改变 间接 跳 转 位 置 的 地 址 使 其 
指向 这 个 例 程 。 然 后 跳 转 到 这 个 例 程 。 
这 个 例 程 完成 时 ， 将 返回 到 初始 调用 点 。 
此 后 ， 它 都 会 间接 跳 转 到 这 个 例 程 而 不 
去 执行 额外 的 中 间 过 程 。 

总 的 来 说 ，DLL 需要 额外 的 空间 来 
存储 动态 链接 的 信息 ， 但 是 不 需要 复制 
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或 链接 整个 库 。 仅 仅 在 例 程 的 第 一 次 调 本 | | 
用 时 开销 较 大 ， 此 后 就 只 需 一 个 间接 跑 DLL 
转 。 注 意 ， 从 库 返 回 的 操作 不 需要 额外 Es 少 
的 开销 。 微 软 的 Windows 广泛 地 依赖 动 | | 一 一 一 
态 链接 库 ， 如 今 在 UNIX 系统 中 程序 执 | | | 六 
行 的 默认 方式 也 是 使 用 动态 链接 库 。 DLL 例 程 
2. 12.6 ”启动 一 个 Java 程序 [| 
前 面 讨论 了 程序 执行 的 传统 模式 ， “次 员 用 DWL 例 和 3 
重点 是 以 一 个 特定 的 指令 集体 系 结构 其 。 ”图 2-22 通过 晚 过程 链接 方式 链接 动态 链接 库 


、 人 a) 第 一 次 调用 DLL 的 步 又; b) 在 随后 的 调用 中 查找 例 程 ， 重 
个 - 2 ? 
至 这 个 体系 结构 的 特定 实现 为 目标 的 程 ”映射 例 程 和 链接 例 程 等 步 允 被 跳 过 。 我 们 将 在 第 5 章 看 到 ， 操 作 系 


序 的 快速 执行 。 实 际 上 ， 可 以 像 C 那样 ” 统 通过 虚拟 内 存 管理 方式 来 重 映射 例 程 以 避免 复制 所 需 例 程 。 

来 执行 Java 程序 。 然 而 ，jJava 是 为 了 不 

同 的 目标 而 发 明 的 ， 其 中 之 一 就 是 能 够 安全 地 运行 在 每 台 计 算 机 上 ， 尽 管 这 可 能 延长 执行 时 间 。 
图 2-23 展示 了 典型 的 Java 翻译 和 运行 步 豫 。Java 程序 会 首先 被 编译 成 易于 解释 的 指令 序列 

Java 字 节 码 指令 集 ( 见 CD 上 的 2. 15 节 ) ， 而 不 是 编译 成 目标 计算 机 可 识别 的 汇编 语言 。 这 个 

指令 集 被 设计 得 非常 接近 Java 语言 ， 这 样 ， 编 译 步 又 相对 简单 ， 事 实 上 它 没 有 做 任何 优化 。 就 像 


Java 程 序 










2-23 Java 的 翻译 层次 

一 个 Java 程序 首先 被 编译 成 一 个 二 进 制版 本 的 Java 
字 节 码 形式 ， 其 中 由 编译 器 定义 所 有 的 地 址 。 此 时 ， 
Java 程序 已 可 在 解释 器 上 运行 ， 称 为 Java 虚拟 机 
(JVM) 。 在 程序 运行 的 时 候 ，JVM 链接 Java 库 中 一 - 
些 需 要 英 用 的 随 数 。 为 了 得 到 更 好 的 性 能 ，JVM 能 
够 调用 即时 (just in time，JIT) 编译 器 ， 在 运行 它 的 
机 器 上 能 够 选择 性 地 把 一 些 方 法 编译 成 宿主 机 土 的 
本 地 机 器 语言 。 





Java 库 例 程 〈 机 器 语 


SEE 
后 号 





类 文件 ‘Java 字 节 码 ) 





已 经 编译 好 的 Java 方 法 (机 器 语言 ) 


加 Java 字 节 码 (Java bytecode) : 为 了 解释 Java 程序 而 设计 的 指令 集中 的 指令 。 
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C 语言 编译 器 那样 ，Java 编译 器 会 检查 数据 类 型 并 且 为 每 种 类 型 提供 正确 的 操作 。Java 程序 将 转 
化 成 这 些 字 节 码 的 二 进 制 形 式 。 

一 个 叫做 Java 虚拟 机 了”(JVM) 的 软件 解释 器 能 够 执行 Java 字 节 码 文件 。 解 释 器 是 一 个 用 
来 模拟 指令 集体 系 结构 的 程序 。 例 如 ， 本 书 所 使 用 的 MIPS 模拟 器 就 是 一 个 解释 嚣 。 由 于 翻译 非 
常 简单 ， 所 以 地 址 可 以 由 编译 器 填写 或 在 运行 时 被 JVM 发 现 ， 不 需要 再 单独 进行 汇编 。 

解释 的 优势 是 可 移植 性 。 软 件 实现 的 Java 虚拟 机 的 可 用 性 意味 着 在 Java 公布 以 后 ， 大 部 分 
人 都 可 以 立即 编写 和 运行 Java 程序 。 今 天 Java 虚拟 机 可 以 用 在 从 手机 到 网 络 浏览 器 等 数 亿 的 设 
备 中 。 

解释 的 不 足 是 性 能 较 差 。20 世纪 80 年 代 和 90 年 代 解 释 在 执行 性 能 上 的 飞速 提高 使 它 可 用 
于 很 多 重要 的 应 用 程序 ， 但 是 与 传统 的 编译 好 的 C 程序 相 比 ，10 倍 的 性 能 差距 使 Java 对 一 些 应 
用 程序 旱 无 吸引 力 。 

为 了 既 保 持 可 移植 性 又 提高 执行 速度 ， 开 发 Java 的 下 一 阶段 目标 是 实现 程序 执行 的 同时 可 
以 进行 翻译 的 编译 回 。 这 个 即时 编译 器 ” (JIT) 通过 记录 运行 的 程序 来 找到 称 为 “热点 ”的 方 
法 ， 然 后 将 它们 直接 编译 成 Java 虚拟 机 运行 的 宿主 机 的 指令 序列 ， 编 译 过 的 部 分 保存 起 来 以 便 
下 次 程序 运行 时 调用 ， 这 样 ， 以 后 每 次 运行 会 更 快 。 解 释 和 编译 的 平衡 随 着 时 间 的 推移 逐步 形 
成 ， 届 时 ， 经 常 运行 的 Java 程序 的 解释 开销 变 得 非常 小 。 

随 着 计算 机 的 速度 越 来 越 快 ， 编译 器 能 做 的 事情 也 越 来 越 多 。 而 随 着 研究 者 不 断 地 发 明 更 
好 的 技术 来 编译 Java 程序 ，Java 与 C 与 C++ 在 性 能 上 的 差距 越 来 越 小 。 光 盘 上 的 2. 15 节 将 进 -一 
步 介 绍 Java 程序 、Java 字 节 码 、JVM 和 JIT 编程 器 。 
小 测验 

对 Java 设计 者 来 说 ， 你 认为 与 翻译 器 相 比 解释 器 在 哪些 方面 的 优点 是 最 重要 的 ? 

A. 解释 器 便于 编写 。 

B. 更 准确 的 错误 消息 。 

C. 更 少 的 目标 代码 。 

D. 机 器 独立 性 。 


<. 13 以 一 个 上 排序 程序 为 例 


以 片断 的 方式 展示 汇编 代码 的 危险 之 处 在 于 你 无 法 知道 整个 汇编 语言 程序 看 起 来 是 怎样 的 。 本 
小 让， 我 们 给 出 了 两 个 C 过 程 对 应 的 MIPS 代码 : 一 个 用 于 交 
换 (swap) 数组 的 元 素 ， 另 一 个 用 于 对 数组 元 素 排序 (sort) 。 


2. 13. 1 swap 过 程 


我 们 从 图 2-24 中 的 过 程 swap 开始 。 这 个 过 程 简单 的 交 
换 内 存 中 两 个 位 置 的 内 容 。 我 们 按照 以 下 常见 的 步骤 把 它 从 





void swap (int vi], int k)} 







int 七 emp : 
temp = V[IK] 

Vv[k] = vIk+1]; 
VvV[k+1] = temp; 








} 





C 程序 手动 翻译 为 汇编 程序 : 图 2.24 所 了 个 位 时 
人 
1) 为 程序 变量 分 配 寄存 器 。 本 小 节 要 在 排序 的 例子 中 使 用 
2) 为 过 程 体 生成 汇编 代码 。 这 个 过 程 。 


3) 保存 过 程 调用 间 的 寄存 器 。 
本 小 节 将 按照 这 三 个 步骤 描述 swap 程序 ， 在 最 后 把 它们 总 结 在 一 起 。 


© Java 虚拟 机 (Java Virtual Machine) : 解释 Java 字 节 码 的 程序 。 


吕 即时 编译 器 〈Just In Time complier) : 一 类 通用 编译 器 的 和 名称 ， 编译 器 能 够 在 运行 时 将 解释 的 代码 段 翻译 成 宿主 
计算 机 上 的 机 器 诺言 。 
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为 swap 分 配 寄存 器 

如 2.8 节 所 述 ， 在 MIPS 中 ， 实 现 参 数 传递 通常 使 用 寄存 器 $a0、$al、$a2 、$a3。 由 于 
swap 只 需要 两 个 参数 ，v 和 k， 它 们 将 被 分 配 在 寄存 太 $a0 和 8$al。 由 于 swap 是 一 个 叶 过 程 
( 见 2.8.2 节 )， 所 以 我 们 为 唯一 的 剩余 变量 temp 分 配 寄 存 器 $t0 。 这 些 寄存 器 的 分 配 与 图 2-24 
中 的 swap 过 程 的 第 一 部 分 变量 的 声明 相对 应 。 

为 swap 过 程 体 生 成 代码 

swap 剩余 部 分 的 C 代码 如 下 所 示 : 

temp =v[ k]; 


vik]=v|k+1]; 
v[k+1] =temp; 


回忆 一 下 MIPS 是 按 字 节 在 内 存 中 寻 址 的 ， 字 由 4 字 节 组 成 。 因 此 我 们 需要 把 k 乘 4， 再 与 
地 址 相 加 。 忘 记 连 续 的 字 之 闻 的 地 址 相差 4 而 不 是 1， 是 汇编 语言 程序 设计 中 常见 的 错误 。 因 此 
获得 vt kj 地 址 的 第 一 步 就 是 通过 左 移 2 位 来 使 x* 乘 4: 

S1L1L $ti, $al,2 # reg $ti=k* 4 


add $t1, $a0, $t1 # regq $tl=v+ (k* 4) 
# reg $tl has the address of v[ k] 


接 下 来 使 用 $t1 来 取 v[ kj] 的 值 ， 在 使 $ti 加 4 得 到 v[k+11 的 地 址 : 


lw $t0,0 ($$t1) # reg $t0 (temp) =v[ k] 
lw $t2,4($t1) # reg $t2=v[k+1] 
# refers to next element of v 


最 后 将 St0 和 $t2 存储 到 需要 交换 数据 的 地 址 中 : 


Sw $t2,0 (S$t1) #v[Lk|=reg $t2 
SW $It0,4{$t1) #v[k+1]=reg $t0 (temp) 


人 至此， 我 们 已 经 为 该 过 程 分 配 了 寄存 器 并 翻译 好 了 程序 体 的 代码 。 保 存在 swap 中 使 用 的 保 
留 寄存 器 的 代码 还 没有 完成 。 但 是 ， 由 于 这 是 一 个 叶 过 程 并 没有 使 用 保留 寄存 器 ， 所 以 没有 需要 
保存 的 东西 。 

完整 的 swap 程序 

现在 我 们 已 经 得 到 完整 的 例 程 了 ,包括 程序 标号 和 返回 的 跳 转 。 为 了 方便 读者 的 理解 ， 在 
图 2-25 中 ， 我 们 标明 了 过 程 中 每 个 代码 块 的 目的 。 
swap: sl1l $t1, $al,2 # reg $tl =Kk* 4 












adaq $tl, $a0, $t1 # reg $tl1 =v+ (Kk* 4) 
# reg $tl has the address of v[ k] 
lw $t0,0 (Stl) # reg $t0 (temp) =v[k] 
lw $t2,4 ($t1) # reg $t2=vLk+1i] 
# refers to next element of v 
Sw $t2,0 ( $t1) # vik] =reg $t2 












$i0,4 ($+t1) ] =reg $t0 (temp) 





to calling routine 


2-25 图 2-24 中 swap 过 程 的 MIPS 汇编 代码 





2. 13.2 seort 过 程 
为 保证 你 会 认识 到 汇编 语言 编程 的 严格 性 ， 我 们 尝试 提供 了 这 第 二 个 更 长 的 例子 。 在 这 个 
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例子 中 ， 我 们 将 编写 一 个 调用 swap 过 程 的 例 程 。 这 个 例 程 对 数组 中 的 整数 进行 排序 ， 使 用 的 是 
冒 泡 或 交换 排序 算法 ， 这 种 排序 算法 虽然 不 是 最 快 的 ， 但 却 是 最 简单 的 。 图 2-26 给 出 了 该 程序 
的 C 代码 。 我 们 还 是 使 用 几 个 步骤 来 演示 翻译 的 过 程 ， 最 后 再 把 它们 总 结 到 一 起 。 


void sort (int v[], int n) 


int i, 1j; 
for (i = 0; i <n;i+= 1) 1 


for (] =i- 1;j] >=0 && v[ij] > vv + 1]; 】 
swap (Vv,j); 





图 2-26 一 个 对 数组 V 中 元 素 进行 排序 的 c 程序 

sort 的 寄存 器 分 配 

为 过 程 sort 的 两 个 参数 v 和 n 分 配 参 数 寄存 器 $a0 和 $al ， 为 变量 i，j 分 别 分 配 寄存 器 
$s0 和 $sl。 

为 sort 过 程 体 生 成 代码 

过 程 体 包含 两 个 髓 套 的 for 循环 和 一 个 有 参数 的 swap 调用 。 我 们 将 从 外 到 内 来 展开 代码 。 
第 一 步 来 翻译 最 外 面 的 for 循环 。 

tctxztI=uii<niz +=1)1 

回忆 CC 语言 中 for 的 声明 有 三 个 参数 : 初始 值 、 循 环 判 断 条 件 和 迭代 增 量 。For 语句 的 第 -- 
部 分 是 将 i 初始 化 为 0， 这 需要 一 条 指 今 ， z 

move $s0, S$zero # 字 =O 
(请 记 住 move 是 为 了 方便 汇编 程序 员 而 由 汇编 器 提供 的 伪 指 令 ， 见 2.12. 2 节 .) For 语句 的 最 后 
部 分 ,需要 一 条 语句 来 增加 i: 

addi $s0, $s0,1 #1i +=1 

循环 要 在 条 件 i <n 非 真 的 时 候 退 出 ， 换 句 话说 ， 当 > n 时 循环 退出 。 如 果 $s0 < $al， 
那么 小 于 则 置 位 指令 将 $t0 置 1， 否 则 置 0。 因 为 我 们 要 测试 $s0 宇 $al ， 所 以 当 寄 存 器 $t0 为 
0 时 ， 执 行 分 支 指令 。 这 需要 两 条 指令 ，; 


forltst: slt $t0,$s0, $al # reg $t0 =0 if $s0> $al(i>n) 
beq $t0,$zero,exitl #dgo to exitl if $s0> $al(iz>n) 


循环 的 底部 仅仅 需要 跳 回 循环 判断 的 地 方 : 


J forlitst # jump to test of outer loop 
exitl: 
第 一 个 for 循环 的 框架 代码 为 

move $s0, $zero #i=0 
torltst:slt $+t0, $s0, $al #reg $t0=0 if $s0> $al(i 完 n) 

beqa $t0, $zero,exit]l #dgo to exitl if $s0> $al(i 宇 n) 

(body of first for loop) 

addi $s0, $s0 ,1 # 羡 +=1 

] forltst # jump to test of outer loop 
exitl: 


《后 面 的 练习 将 会 进一步 探索 为 类 似 的 循环 编写 更 快 的 代码 。) 
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第 二 个 for 循环 的 C 语句 如 下 : 
for{j =i - 1;j >=0 && v[j] >v[tj +1];j -=1) 


这 个 循环 的 初始 化 部 分 仍然 是 一 条 指令 : 


addi $sl,$s0,-1 #j 了 = 二 一 1 
循环 末尾 j 的 自 减 ( 减 1) 也 是 一 条 指令 : 
addi $sl,$sl,-1 #j -=1 


循环 判断 由 两 个 部 分 组 成 。 任 何 一 个 条 件 为 假 就 退出 循环 ， 所 以 第 一 个 条 件 如 果 为 假 (j <0) 
就 要 退出 循环 : 


for2tst:slti $tO0, $sl,0# reg $tO =1 if $sl <0 (<0) 
bne $t0 , $zero,exit2# go to exit2 if $sl <0 (jj <0) 


这 将 跳 这 第 二 个 条 件 测试 ， 如 果 没 有 跳 过 的 话 ，j 一 定 大 于 等 于 0。 
第 二 个 测试 条 件 当 v[ j]」>v[j +1] 非 真 的 时 候 退 出 。 为 得 到 地 址 ， 我 们 首先 将 j 乘 4 (我 
们 需要 字 节 地 址 ) ， 然 后 将 它 与 v 的 基地 址 相 加 : 


sll . $t1， 书 sl, 2 # reg $t1l =-j* 4 

add $t2, $a0, $tl #zreg $t2=v+(j]* 4) 
现在 取 v[j|]: 

lw $t3 ， 0( $t2) # reg $t3=v[j] 


因为 我 们 知道 第 二 个 元 素 恰 好 是 下 一 个 字 ， 所 以 我 们 将 寄存 器 $t2 值 加 4， 得 到 v[j +1] 的 
地 址 : 


lw $t4,4( $t2) # reg $t4=v[j+1] 


测试 vLjjv[j+zlj 与 测试 v[j +11v[j] 相 同 ， 所 以 测试 退出 的 两 条 指令 如 下 : 
silt $tO, $t4, $t3 # reg $tO =0 if $t4 $t3 
beq $t0, $zero,exit2 # go to exit2 if $t4 $t3 
循环 末尾 跳 回 到 内 层 循 环 测试 处 ; 
] for2tst # jump to test of inner loop 
将 这 些 片 段 组 合 到 一 起 ， 可 得 第 二 个 for 循环 的 框架 如 下 
addi $sil,$s0,—-1 # 了 =i -1 
for2tst: slti $t0,$sl,0 # reg $toO =1 if $sl <0( <0) 
bne $t0, $zero,exit2  #go to exit2 if $sl <0 (j <0) 
sll $t1,$s1,2 # reg $t1 =j* 4 
add $t2, $a0, $t1 # reg $t2=v+ (xx 4) 
lw $t3,0( $t2) # reg $t3 =v[j] 
lw $t4,4( $t2) # reg $t4 =v[j+1] 
slt $tO, $t4, $t3 # reg $t0 =0 if $t4 $t3 


beq  $t0, $zero,exit2 #9go to exit2 if $t4 $t3 
(body of second for loop) 
addi $sl,$sl,-1 # jj 一 =1 


]】 for2tst # jump to test of inner loop 
exit2. 
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sort 中 的 过 程 调用 : 

下 一 步 翻 译 第 二 个 for 循环 的 循环 体 ; 

swap (Vv ,Jj); 

调用 swap 很 容易 : 

jal Swap 

sort 中 的 参数 传递 

当 我 们 想 传递 参数 时 间 题 出 现 了 ， 因 为 sort 过 程 需 要 使 用 寄存 器 $a0 和 $al 中 的 值 ， 而 
swap 过 程 需要 将 它 的 参数 放 人 这 些 寄存 器 。 一 种 解决 办 法 是 在 过 程 的 较 早 的 地 方 将 sor 的 参 
数 复制 到 其 他 的 寄存 器 中 ， 使 swap 过 程 可 以 使 用 寄存 器 $a0 和 寄存 器 $al 。( 这 个 复制 的 过 程 
比 在 栈 中 保存 后 再 取 回 要 快 得 多 。) 在 过 程 中 我 们 首先 将 寄存 器 $a0 和 $al 的 值 复 制 到 寄存 咒 
$s2 和 $s3 。 


move $s2,$a0 # copy parameter $a0 into $s2 
move $s3,$al # copy parameter $al into $s3 
然后 用 下 面 两 条 指令 将 参数 传递 给 swap: 

move $a0,$s2 # first swap parameter isv 
move $al,$sl # second swap parameter is J 
在 sort 中 保存 寄存 器 


仅 剩 保存 和 恢复 寄存 器 值 的 代码 了 。 因 为 sort 是 一 个 过 程 并 且 它 要 递归 使 用 ， 所 以 很 明显 
需要 用 寄存 器 $ra 保存 返回 地 址 。sort 过 程 还 使 用 了 $s0、$s1、$s2 和 $s3 等 保留 寄存 器 ， 
它们 的 值 也 必须 被 保存 。 所 以 sort 过 程 头 如 下 . 


addi $sp, $sp, -20 # make room on stack for 5 registers 
Sw $ra,16( $sp) # Save $ra on stack 

Sw $s3,12( $sp) # save $s3 on stack 

gw $s2,8( $sp) # save $s2 on stack 

SW $s1,4( $sp) # save $sl on stack 

Sw $s0,0( $sp) # save $s0 on stack 

过 程 末尾 只 需 反 向 执行 这 些 指 令 ， 然 后 为 了 返回 加 上 jr 指令。 
完整 的 sort 过 程 


现 将 所 有 片段 合 起 来 放 入 图 2-27， 注 意 for 循环 中 对 寄存 器 $a0 和 $al 的 引用 已 经 被 替换 成 
对 寄存 器 $s2 和 $s3 的 引用 。 为 了 方便 阅读 我 们 再 一 一 次 将 过 程 中 每 一 块 的 用 途 标 了 出 来 。 本 例 
中 , 9 行 C 语言 编写 的 sort 过 程 被 翻译 成 35 行 的 MIPS 汇编 语言 代码 。 





保存 寄存 咒 值 


$sp, $sp, -20 # make room on stack for 5 registers 
$ra,l16 {$sp)# save $ra on stack 
$s3,12 ($sp) # save $s3 on stack 


$s2,8 ($sp)# save $s2 on stack 
$sl,4($sp)# save $sl on stack 
$s0,0 ($sp)# save $s0 on stack 


图 2-27 2-26 中 sort 过 程 的 MIPS 汇编 版 本 
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和 人 
move $s2, $a0# copy parameter $a0 into $s2 (save $a0) 
move $s3, $al# copy parameter $al into $s3 (save $al) 
move $s0, $zero# i=0 
forltst: Silt $t0, $s0, $s3 # reg $t0 =0 if $s0 < $s3(i<n) 







beq $0, $zero, exitl# go to exitl] if $s0 < $s3(i <n) 







$sl, $s0, -1#j=i-1 








for2tst: slti $t0O, $sl,0 # reg $t0=1 it $sl <0(j<0) 
bne $t0, $zero, exit2 # go to exit2 if $sl <0 (<0) 
sll $t1l, $sl,2# reg $tl1=j* 4 
add $t2, $s2, $t1# reg $t2=v+(j]* 4) 
lw $t3,0 ( $t2)# reg $t3 =v[j] 
lw $t4,4{($t2)# reg $t4=v[j+1] 






$iO, $t4, $t3# reg $t0 =0 if $t4 < $t3 
$t0, $zero, exit2# go to exit2 if $t4 < $t3 












$a0, $s2 # lst parameter of swap is vl(old $a0) 
move $al, $sl #2nd parameter of swap is J 
Swap # swap code shown in Figure 2. 25 


循环 内 部 addi $s1l, $s1l, -1#j -=1 
| for2tst # Jump to test of inner loop 
循环 外 部 exit2: addi $s0, $s0,1 # 二 +=1 
要 







传递 参数 和 调用 


















j forltst # jump to test of outer loop 
$s0,0 ($sp) # restore $s0 from stack 

1w $s1,4($sp)# restore $sl from stack 

lw $s2,8 ($sp)# restore $s2 from stack 

lw $s3,12 ($sp) # restore $s3 from stack 


$ra,16 ($sp) # restore $ra from stack 
$sp, $sp,20 




















# restore stack pointer 





过程 返 回 





# return to calling routine 





图 2-27 ( 续 ) 


精 解 : 这 个 例子 可 以 使 用 的 一 种 优化 方法 是 内 联 过程 (procedure inlining) 。 在 代码 中 调用 swap 
过 程 的 地 方 ， 编 译 器 将 swap 的 过 程 体 的 代码 复制 过 来 ， 而 不 是 通过 传递 参数 并 通过 jal 指令 来 调用 
这 段 代 码 。 本 例 中 使 用 内 联 可 以 省 掉 4 条 指令 。 使 用 内 联 的 缺点 是 如 果 内 联 过 程 需要 在 多 个 地 方 调用 
的 话 ， 编 译 后 产生 的 代码 将 会 变 多 。 如 果 这 种 代码 扩展 导致 cache 的 缺失 率 上 升 ， 将 导致 性 能 的 下 降 
( 见 第 5 章 )。 
理解 程序 的 性 能 | 

图 2-28 展示 了 编译 器 优化 对 排序 程序 的 性 能 、 编 译 时 间 、 时 钟 周期 、 指令 数 和 CPI 的 影响 。 
注意 没有 优化 的 代码 具有 最 好 的 CPI， 使 用 O1 优化 的 代码 具有 最 少 的 指令 数 ， 但 是 03 优化 的 执 
行 速度 最 快 ， 这 告诉 我 们 执行 时 间 是 准确 衡量 程序 性 能 的 唯一 指标 。 

图 2-29 比较 了 编程 语言 、 编 译 执行 或 解释 执行 和 算法 对 排序 程序 性 能 的 影响 。 第 四 列表 明 
在 执行 冒 泡 排序 时 没 优化 的 C 程序 比 解释 型 的 Java 程序 快 8.3 倍 。 使 用 即时 编译 器 可 以 使 Java 
比 没有 优化 的 C 程序 快 2. 1 倍 ， 比 最 佳 优化 的 C 代码 慢 不 到 1.13 倍 。(CD 中 的 2.15 小 结 将 给 出 
关于 解释 执行 和 编译 执行 Java 的 更 多 细节 以 及 冒 泡 排 序 的 Java 和 MIPS 代码 ) 在 第 五 列 中 快速 排 
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序 的 性 能 比 就 没 那 么 接近 了 ， 这 大 概 是 因为 在 这 样 短 的 执行 时 间 内 分 摊 运 行 时 编译 的 时 间 是 非 
常 困难 的 。 最 后 一 列 展示 了 更 好 的 算法 带 来 的 影响 ， 当 对 100 000 个 元 素 进行 排序 时 ， 性 能 达到 
了 3 个 数量 级 的 提升 。 即 第 五 列 中 解释 执行 的 Java 与 第 四 列 中 最 优化 的 C 代码 相 比 ， 快 速 排序 
法 要 比 置 泡 法 快 50 倍 (0.05 x2468 或 者 用 123/2. 41) 。 

















0 《完全 e6571 19 99 


图 2-28 置 泡 排 序 中 编译 器 优化 对 性 能 、 指 令 数 、CPI 的 影响 比较 
程序 对 含有 100 000 个 字 的 被 初始 化 为 随机 数 的 数组 进行 排序 。 程 序 运 行 在 3. 06 GHz 的 奔腾 4 处 理 器 上 ， 
前 端 系统 总 线 是 533 MHz， 具 有 2 GB 的 PC2100 DDR SDRAM。 操 作 系 统 使 用 Linux 2. 4. 20 


114 938 1. 38 





2-29 ”两 个 排序 算法 的 性 能 比较 。 算 法 分 别 用 C 和 Java 实现 ，Java 分 别 使 用 解释 执行 和 
优化 编译 来 与 没 优化 的 C 版 本 比较 
最 后 -- 列 是 快速 排序 比 冒 泡 排 序 在 每 种 语言 和 执行 方式 下 速度 提高 多 少 。 这 些 程 序 运行 的 系统 与 图 2-28 相 
同 。JVM 是 Sun 的 1.3.1 版 本 ，JIT 是 Sun Hotspot 的 1.3.1 版 本 。 


精 解 : MIPS 的 编译 器 总 是 在 栈 上 为 参数 保留 空间 以 便 它们 得 以 保存 ， 所 以 实际 上 $sp 总 是 减 16 来 给 
4 个 参数 寄存 器 〈16 字 节 ) 分 配 空间 。 这 样 做 的 原因 是 C 提供 一 个 vararg 选项 ， 该 选项 允许 选择 一 个 指 
针 ， 例 如 过 程 的 第 三 个 参数 。 当 编译 器 遇 到 这 种 少见 的 vararg， 它 就 将 四 个 参数 寄存 器 的 值 都 复制 到 栈 
上 已 经 保留 的 位 置 中 。 


2. 14 数组 与 指针 


理解 指针 对 任何 一 个 C 程序 新 手 来 说 都 是 具有 挑战 的 。 通 过 对 比 使 用 数组 和 数组 标记 的 汇编 代 
但 和 使 用 指针 的 汇编 代码 ， 可 以 从 本 质 上 来 理解 指针 。 本 小 节 将 展示 C 和 MIPS 汇编 版 本 的 两 个 清 
除 内 存 中 连续 字 的 过 程 :一 个 使 用 数组 标记 ; 另 一 个 使 用 指针 。 图 2-30 给 出 了 这 两 个 C 过 程 。 


clearll{lint array[], int size) 


‘ 

int i; 

for (i = 0; i < size; i += 1) 
array[il = 0; 





图 2-30 两 个 将 数组 清 零 的 C 过 程 

clearl 使 用 下 标 ， 而 clear2 使 用 指针 。 对 不 熟悉 C 的 人 ,第 
二 段 需 要 做 一 些 解释 。 变 量 的 地 址 使 用 & 表示 ， 指 针 所 指向 的 对 象 
用 * 表 示 。 声 明 部 分 说 明 array 和 p 都 是 指向 整数 的 指针 。 
Clear2 的 for 循环 的 第 一 个 部 分 将 array 的 第 一 个 元 素 的 地 址 赋 
值 给 指针 p。for 循环 的 第 二 部 分 判断 这 个 指针 是 否 指向 array 的 
最 后 一 个 元 素 之 外 。for 循环 的 最 后 部 分 ， 对 这 个 指针 每 次 递增 
( 增 1) ， 意 味 着 将 指针 移 到 它 声明 的 空间 中 的 下 一 个 对 象 。 由 于 P 
龙 一 个 指向 整数 的 指针 ， 编 译 器 将 会 产生 MIPS 指令 ， 让 p 按照 4 
递增 , 4 是 MIPS 中 整数 的 字 节 数目 。 循 环 体 中 将 0 赋值 给 p 所 指 
向 的 对 象 。 









clear2 (int *array, int size) 





int *p; 

for (p = &array [0]; p < 

&arraylsize]; p= p+ 1) 
*P = 0; 

} 
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本 小 节 的 目的 是 展示 指针 是 如 何 映 射 到 MIPS 指令 的 ， 而 不 是 赞同 这 种 过 时 的 编程 风格 。 我 
们 将 在 本 小 节 的 末尾 ， 将 看 到 现代 编译 器 的 优化 对 这 两 个 过 程 带 来 的 影 啊 。 


2. 14. 1 用 数组 实现 clear 


我 们 从 数组 版 本 的 clearl 开始 ， 主 要 关注 循环 体 ， 而 忽略 过 程 链接 相关 的 代码 。 假 设 两 个 
参数 array 和 size 分 别 在 寄存 器 $a0 和 $al 中 ，i 保存 在 $t0 中 。 
for 循环 的 第 一 部 分 ， 初 始 化 变量 i: 


move $tO, $zero # =0 (register $t0 =0) 
为 了 将 array[ i] 清 0， 我 们 首先 需要 得 到 它 的 地 址 。 首 先 把 i 乘 4 得 到 字 节 地 址 : 
loopl: sll $t1 , $t0 ,2 # $t1 =i* 4 


因为 数组 的 起 始 地 址 在 寄存 器 中 ， 所 以 我 们 必须 将 它 与 下 标 相 加 以 得 到 array[ i ] 的 地 址 ， 
使 用 下 面 的 加 法 指令 : 


add $t2, $a0 ，$t1 # $t2 =address of array[ i] 


然后 ,我们 就 将 0 保存 在 这 个 地 址 : 


sw $zero, 0O( $t2) #array[ i] =0 
这 条 指令 是 循环 体 最 后 一 条 指令 ， 下 一 步 是 增加 i 值 (加 1): 
addi $t0 , $t0,1 井 主 = 工 + 工 
循环 测试 条 件 是 i 是 否 小 于 size: 
slt $t3, $t0, $al # $t3= (i < size) 
bne $t3, $zero,1loopl # if (i<size)go to loopl 
现在 ， 我 们 已 经 得 到 过 程 所 有 的 片断 。 下 面 则 是 使 用 数组 下 标 对 数组 清 零 的 MIPS 汇编 码 
move $t0, $zero # 羡 =0 : 
loopl:sll $t1, $t0 ,2 # $tl=i* 4 
add $t2, $a0, $t1 # $t2 =address of array[ i] 
Sw $zero,0 ($t2) #array[i]=0 
addi $t0, $t0,1 # 寺 一 斌 +1 
slt $t3, $t0, $al # $t3=(i<size) 
bne $t3, $zero, loopl # if (i < size)go to loopl 


(只 要 size 大 于 0， 这 些 代码 就 能 正确 的 工作 ; ANSI C 需要 在 循环 前 测试 size 值 ， 但 是 我 
们 跳 过 了 这 个 。) 


2. 14. 2 用 指针 实现 clear 


第 二 个 过 程 是 使 用 指针 的 ， 该 过 程 将 两 个 参数 array 和 size 分 配 到 寄存 器 $a0 和 $al,， 
将 p 分 配 到 寄存 器 $t0。 在 第 二 个 过 程 开 始 时 需要 将 数组 的 首 地 址 赋值 给 指针 p: 


move $t0, $a0 # p=address of arravy[0] 
接 下 来 的 代码 将 是 for 循环 体 ， 它 仅仅 是 简单 地 将 0 存 到 地 址 p: 
loop2: Sw $zero,0( $t0) # Memory[P] =0 


这 条 指令 实现 了 循环 体 ， 所 以 下 一 条 指令 将 是 迭代 子 自 增 ， 即 改变 p 使 其 指向 下 一 个 字 : 
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addi $t0, $t0,4 #p=p+4 


在 C 中 将 指针 加 1 意味 着 将 指针 指向 序列 中 下 一 个 对 象 。 因 为 p 是 一 个 指向 整数 的 指针 ， 整 


数 占用 4 个 字 节 ， 编 译 器 将 对 P 加 4。 


接着 就 是 循环 测试 。 首 先 计算 array 最 后 一 个 元 素 的 地 址 。 先 将 size 乘 4 得 到 字 市 地 址 。 


sll $t1, $al,2 # $tl =size * 4 

然后 ， 将 乘积 与 数组 的 首 地 址 相 加 以 获得 数组 后 面 第 一 个 字 的 地 址 : 
add $t2, $a0,$t1 # $t2 =address of array| size]| 

循环 测试 仅仅 是 简单 的 判断 p 是 否 比 数 组 的 最 后 一 个 元 素 的 地 址 小 : 
slt $t3, $t0, $t2 # $t3= (p< &arrayl sizej) 

bne $t3, $zero,1oop2 # if (p<&array[ sizej)go to loop2 
所 有 的 代码 片段 都 已 经 完成 ， 现 在 我 们 可 以 看 到 指针 版 本 的 数组 清 零 了 : 
move $t0, $a0 #p=address of array[0] 

loop2:sw $zero,0( $t0) 。# Memory[ pj] =0 

addi $t0, $t0,4 #p=pPp+4 

sll $t1,$al,2 # $t1 =size * 4 

add $$t2, $a0, $t1 # $t2 =address of array[ size| 

slt $t3,$t0,$t2 # $t3 = (p< &arrayl size|]) 

bne $$t3,$zero,l1oop2 #if(p<&array[ size])go to Loop2 


与 第 一 个 例子 一 样 ， 这 段 代码 也 假定 size 大 于 0。 
注意 ， 尽 管 数 组 的 末 地 址 一 直 保 持 不 变 ， 但 是 这 个 程序 循环 的 每 次 迭代 都 要 计算 它 。 一 种 快 


速 的 执行 方式 是 将 数组 未 地 址 的 计算 放 到 循环 体外 面 : 


move $t0, $ad # p=address of array[ 0 | 

sll $t1l,$al,2 # $tl =size * 4 

add  $t2,$a0, $tl # $t2 =address of arrayl size] 
loop2:sw $zero,0( $t0) # Memorv[Pp] =0 

addi $t0,$t0,4 #p=p+4 

sit $$t3,$t0,$t2 # $t3 = (p< garrayl size]) 


bne $+t3,$zero,loop2 #if(p<é&arrayl sizel])go to loop2 


2. 14. 3 ”比较 两 个 版 本 的 clear 


将 两 段 代码 放 在 一 起 进行 比较 可 以 说 明 数 组 标记 和 指针 的 不 同 (指针 版 本 带 来 的 变化 被 高 


党 显示 ): 


move $t0,$zero # 半 =0 
loopl:sill $t1, $t0,2 # $tl=i* 4 

add  $t2, $a0, $tl  #$t2=&array[il] 

Sw $zero,0 ($t2) #array[i]=0 

addi $t0, $t0,1 井 诗 = 诗 十 工 

slit $t3, $t0, $al # $t3=(i<size) 

bne $t3, $zero,loopl# if (i < size}go to loopl 

move $t0, $ad #p=& array[o0] 

sll $t1, $al,2 # $tl =size * 4 

add  $t2, $a0, $tl # $t2 = &array[ size] 
loop2 :sw $zero,0( $t0) # Memory[Lp|] =0 

addi $t0,$t0,4 #p=p+4 

Slt $t3, $t0, $t2 # $t3= (p<&array[ size]) 

bne $t3 ， $zero,loop2# if (p< &array[ size | ) go to loop2 
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左边 的 版 本 必须 在 循环 中 有 “ 乘 ” 和 加 操作 ， 因 为 奔 值 增加 了 ， 每 个 地 址 都 将 从 新 下 标 i 
开始 被 重新 计算 。 右 边 存储 器 指针 版 本 的 代码 直接 增加 指针 P。 指 针 版 本 通过 把 一 些 操作 拿 到 循 
环 外 部 ， 将 每 次 欠 代 执行 的 指令 从 6 条 减少 到 4 条 。 这 种 手动 的 优化 与 编译 履 的 强度 减少 〈 用 移 
位 代替 乘 ) 和 变量 消除 (消除 循环 中 的 数组 地 址 计算 ) 是 一 致 的 。CD 中 的 2. 15 节令 述 了 这 两 
种 优化 和 其 他 一 些 优化 。 

精 解 : 正如 前 面 提 到 的 ，C 编译 器 需要 增加 测试 来 保证 size 一 定 大 于 0。 一 个 方法 是 在 循环 的 第 一 条 
指令 之 前 加 入 一 条 跳 转 到 slt 的 跳 转 指令 。 z 

以 往 经 党 教育 人 们 要 在 C 中 使 用 指针 来 获得 数组 所 无 法 获得 的 更 高 的 效率 。 然 而 , “使 用 指 
针 ， 甚 至 会 使 你 自己 都 无 法 理解 代码 的 售 义 ”现代 的 优化 编译 器 可 以 为 数组 版 本 产生 同样 好 的 
代码 。 现 在 大 部 分 程序 员 更 喜欢 让 编译 器 去 做 更 繁重 的 工作 。 


2. 15 高 级 内 容 : 编译 C 语言 和 解释 Java 语言 


本 小 方 将 简要 概述 C 编译 器 如 何 工 作 和 Java 是 如 何 执行 的 。 因 为 编译 器 将 对 计算 机 的 性 能 
产生 重要 影响 ， 所 以 理解 编译 器 技术 是 理解 性 能 的 关键 。 请 记 住 编译 器 的 构建 课程 的 学 习 一 般 
需要 ! 个 或 2 个 学 期 ， 所 以 我 们 这 里 将 仅仅 介绍 一 些 基 本 内 容 。 

本 小 节 的 第 二 部 分 是 为 对 面向 对 象 语言 ” (例如 Java) 在 MIPS 体系 结构 上 执行 感 兴趣 的 读 
者 准备 的 。 本 节 将 展示 被 用 于 解释 执行 的 Java 字 节 码 和 前 面 章 节 中 用 C 编写 的 程序 段 的 Java 版 
本 的 MIPS 代码 ,包括 冒 泡 排序 。 本 节 将 包括 Java 虚拟 机 和 即时 编译 器 。 

本 小 亡 的 剩余 内 容 在 CD 上 。 


2. 16 ”实例 ARM 指令 集 

在 能 人 式 设备 领域 中 最 流行 的 指令 集体 系 结构 是 ARM ， 每 年 都 有 超过 30 亿 部 各 种 名 样 
的 设备 使 用 ARM 处 理 器 。ARM 最 初代 表 Acorn RISC Machine， 稍 后 被 改 为 Advanced RISC 
Machine。ARM 与 MIPS 处 理 器 在 同年 发 布 并 遵循 相同 的 简洁 的 设计 哲学 。 图 2-31 列 出 了 
ARM 与 MIPS 的 相似 性 。 它 们 二 者 的 主要 区 别 是 MIPS 有 更 多 的 寄存 器 而 ARM 有 更 多 的 寻 
址 模式 。 


















发 布 时 间 : z 
OO 


图 2-31 ARM 和 MIPS 指令 集 的 相同 点 
图 2-32 展示 了 MIPS 与 ARM 在 算术 逻辑 和 数据 传输 指令 方面 具有 相似 的 指令 集 核 . 











加 面向 对 象 语言 (objeeted oriented language) : 一 种 针对 对 象 而 不 是 动作 的 编程 语言 ， 或 者 针对 数据 而 不 是 逻辑 。 
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ST 
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EE 
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REYBS 
取 有 符号 半 字 
到 无 符号 六 字 
人 | 
NE 
pvp 





<-32 ARM 的 寄存 器 -寄存 器 指令 和 数据 传输 指令 和 MIPS 是 等 价 的 
横 线 表示 在 这 个 指令 集 下 没有 该 指令 。 如 果 有 几 条 可 供 选 择 的 指令 都 与 MIPS 等 价 ， 那 么 用 逗号 分 隔 这 些 指 
令 。ARM 中 每 条 数据 操作 指令 都 有 移 位 的 部 分 ， 所 以 移 位 指令 用 了 上 标 1， 它 们 基本 是 move 指令 的 变种 ， 例 
如 1sr 。 注 意 ARM 中 没有 除法 指令 。 


2. 16. 1 导 址 模式 


图 2-33 展示 了 ARM 支持 的 数据 寻 址 模式 。 不 同 于 MIPS，ARM 不 需要 使 用 专门 的 寄存 器 来 保存 0 
这 个 数值 。 尽 管 MIPS 仅 有 3 种 简单 的 数据 寻 址 模式 〈 见 图 2-18) ，ARM 却 有 9 种 寻 址 模式 之 多 ,包括 
十 分 复杂 的 计算 的 寻 址 模式 。 例 如 ，ARM 的 一 种 寻 址 模式 可 以 把 一 个 寄存 器 中 的 数 移动 任意 位 ， 将 移 
位 后 得 到 的 数 与 另外 一 个 寄存 器 中 的 值 相 加 产生 地 址 ， 然 后 将 产生 的 新 地 址 存 人 一 个 寄存 器 中 。 





寄存 器 操作 数 
| 坷 存 器 + 寄存 器 (T 标 ) | XxX | 一 | 
寄存 吕 + 寄存 器 信 到 (信条) | xX | 
名 + 偏 移 和 更 新 寄存 禾 | xX | 一 
”有史 + 寄 丰 避 和 更 新 寄存 器 ”| XxX | ~ 
并 | x 
相对 PC 的 数据 | “x | 一 一 


ARM 具有 分 离 的 寄存 器 间接 图 2-33 ”数据 寻 址 模式 的 总 结 
间接 寻 址 和 寄存 器 + 偏 移 寻 址 模式 ， 而 不 是 仅仅 在 后 一 种 模式 的 
为 了 增加 寻 直 范围， 如果 是 对 半 字 或 字 进 行 操作 ，ARM 对 偏 移 左 移 1 位 或 2 位 。 个 移 地 址 上 十 


Ls 
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2. 16.2 比较 和 条 件 分 支 


MIPS 使 用 寄存 器 中 的 值 来 决定 条 件 分 支 是 否 执 行 。 而 ARM 使 用 传统 的 存储 在 程序 状态 字 中 
的 4 位 条 件 码 来 决定 条 件 分 支 是 否 执行 。 这 4 个 条 件 码 是 ; 负 的 〈negative) 、 零 (zero)、 进 位 
(cary) 和 溢出 《overflow)。 这 些 条 件 码 可 以 被 任何 算术 或 逻辑 指令 置 位 ， 不同 于 早期 的 体系 结 
构 ， 这 些 置 位 功能 是 每 条 指令 的 可 选 功 能 。 明 确 的 选项 会 使 流水 化 的 实现 变 得 更 加 容易 。ARM 
使 用 条 件 分 支 来 测试 条 件 码 以 判断 所 有 有 符号 和 无 符号 的 关系 。 

CMP 指令 用 -个 操作 数 减 去 男 一 个 操作 数 ， 用 它们 的 差 置 位 条 件 码 。CMN 指令 将 一 个 操作 
数 与 另 一 个 操作 数 相 加 ， 用 它们 的 和 来 置 位 条 件 码 。TST 指令 将 两 个 操作 数 进 行 逻 辑 与 ， 然 后 置 
位 除 溢出 位 外 其 他 的 条 件 码 。TEQ 指令 是 用 异 或 结果 来 置 位 条 件 码 的 前 三 位 。 

ARM 具有 这 样 一 个 不 寻常 的 特点 ， 每 条 指令 都 有 一 个 可 选 的 执行 条 件 ， 这 个 条 件 决定 于 条 件 
码 。 每 条 指令 开始 的 4 位 字段 决定 这 条 指令 将 执行 空 操作 (nop) 还 是 执行 真实 的 指令 操作 ， 这 种 
选择 也 取决 于 条 件 码 。 因 此 ， 条 件 分 支 也 可 以 被 认为 是 有 条 件 的 执行 无 条 件 分 支 指令 。 条 件 执行 指 
令 可 以 取代 仅 为 了 跳 过 一 条 指令 的 分 支 指令 ， 不 仅 占 用 的 代码 空间 更 少 ， 而 且 也 会 节省 运行 时 间 。 

图 2-34 展示 了 ARM 和 MIPS 的 指令 格式 。 它 们 之 间 的 主要 区 别 有 两 点 : 每 条 指令 的 4 位 条 
件 执行 字段 不 同 ; ARM 因为 只 用 MIPS 一 半数 量 的 寄存 器 ， 所 以 具有 相对 较 小 的 寄存 器 字段 。 
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ARM [| Rs | Rd 
Register-register 2 0 16 15 
MIPS 
31 28 27 20 19 16 15 [2 41 0 
ARM 恬 > Cons fl 
Data transfer 25 21 20 16 15 0 
ARM 
Branch 
MIPS 
ARM 
Jump/Call 
MIPS 








Opcode 口 Resister 口 Constant 


2-34 ARM 和 MIPS 的 指令 格式 。 区 别 在 于 体系 结构 中 是 有 16 个 还 是 32 个 寄存 器 


2. 16. 3 ARM 的 特色 
图 2-35 列举 了 ARM 处 理 器 所 特有 的 一 些 算术 逻辑 指令 ， 这 些 指令 在 MIPS 中 是 不 存在 的 。 
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由 于 没有 专门 的 寄存 器 用 来 存储 0， 所 以 ARM 需要 单独 的 操作 码 来 完成 一 些 在 MIPS 中 可 以 简单 
使 用 $zero 来 完成 的 操作 。 另 外 ，ARM 支持 多 个 字 的 算术 操作 。 


CTT am 















Rad = Rsi >>1 






Rdo...;_1 = Rs3l -ia1 


转 
HH | aa mm | 
Ta asam al 
直下 


CarryOut, Rd = Rd - Rsl + OldCarryOut 
图 2-35 MIPS 中 没有 的 ARM 算术 /逻辑 指令 


ARM 解释 12 位 立即 数字 段 的 方式 非常 新 颖 。 首 先 将 右 侧 低 8 位 的 有 效 位 填 0 扩展 到 32 位 ， 
然后 将 所 得 的 数 循环 右 移 ， 移 动 的 位 数 由 高 四 位 的 值 乘 以 2 决定 。 这 种 解释 方式 的 优点 是 可 以 在 
32 位 字 的 范围 内 表达 所 有 2 的 寡 次 。 为 什么 这 种 分 割 所 表示 的 数字 多 于 简单 的 12 位 字段 是 一 个 
有 趣 的 问题 。 

对 操作 数 的 移 位 并 不 仅 限于 立即 数 。 所 有 算术 和 逻辑 运算 操作 的 第 二 个 寄存 器 操作 数 都 可 
以 在 执行 操作 之 前 进行 移 位 。 可 选 的 移 位 方式 是 逻辑 左 移 ， 逻 辑 右 移 ， 算 术 右 移 和 循环 右 移 。 

ARM 还 对 寄 仓 器 组 的 操作 提供 了 指令 支持 ， 这 些 指 令 叫 做 块 加 载 和 存储 (block loads and 
stores) 。 在 指令 的 16 位 掩 码 的 控制 下 ，16 个 寄存 器 中 的 任意 组 合 都 可 以 被 一 条 指令 加 载 或 存储 
到 内 存 中 。 这 些 指令 可 以 保存 和 恢复 程序 调用 和 返回 时 的 寄存 器 。 这 些 指令 也 可 以 被 用 于 存储 
钙 块 的 复制 ,现在 这 些 存 储 器 块 的 复制 是 对 这 些 指 令 的 主要 应 用 。 


<. 17 实例 ，x86 指令 集 
情人 眼 里 出 西施 。 






支持 多 个 整数 字 的 减 








Margaret Wolfe Hungerford, 《Molly Bawn》，1877 
指令 集 的 设计 者 有 时 提供 比 ARM 和 MIPS 更 强大 的 操作 。 这 样 做 的 目 的 是 为 减少 程序 需要 
执行 的 指令 数 。 其 风险 在 于 ， 在 设备 简单 性 方面 需 付出 一 定 的 代价 ， 并 且 可 能 使 程序 执行 时 间 变 
长 ， 这 是 因为 指令 执行 需要 更 长 的 时 间 。 这 可 能 是 由 于 时 钟 周期 变 长 或 者 是 比 更 简单 的 序列 需 
要 更 多 的 周期 来 执行 程序 所 引起 的 。 
通 问 复杂 操作 的 道路 困难 重重 。 为 避免 这 些 问题 ， 设计 者 会 选择 更 简单 的 指令 。2. 18 小 节 
将 阐述 复杂 性 的 陷阱 。 


2. 17. 1 Intel x86 的 改进 


ARM 和 MIPS 都 是 由 单独 的 小 组 在 1985 年 推出 的 。 这 种 体系 结构 的 每 部 分 配合 在 一 起 非常 
合适 ， 整 个 体系 结构 能 被 简洁 地 描述 出 来 。 但 是 x86 却 不 是 这 样 ， 它 是 由 一 些 相 互 独立 的 小 组 开 
发 的 ， 并 且 它 被 持续 改进 了 超过 30 年 ， 个 断 在 原来 指令 集 的 基础 上 增加 新 的 特性 ， 这 就 像 有 些 
人 往 包 装 好 的 包 里 添加 衣服 。 下 面 是 x86 发 展 的 一 些 重要 的 里 程 碑 。 

”1278 ;Intel 8086 体系 结构 作为 之 前 一 款 成 功 的 8 位 微 处 理 器 的 汇编 语言 的 可 兼容 的 扩展 

饿 发 布 。8086 是 一 个 16 位 的 体系 结构 ， 所 有 内 部 的 寄存 器 都 是 16 位 长 。 与 MIPS 不 同 ， 
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它 的 寄存 器 都 是 专用 的 ， 因 此 8086 并 不 是 通用 寄存 器 “体系 结构 。 

1980 : Intel 8087 浮 点 协 处 理 器 发 布 。 这 个 体系 结构 在 8086 的 基础 上 增加 了 60 条 浮 点 指 
令 。 它 通过 栈 来 代替 寄存 器 〈 见 光盘 中 的 2.20 小 节 和 3.7 小 节 )。 

1982 : 80286 在 8086 的 基础 上 把 地 址 空间 扩展 到 24 位 ， 并 设计 了 精妙 的 内 存 映 射 和 保护 
模式 ( 见 第 5 章 ) ， 还 增加 了 一 些 指令 去 丰富 整个 指令 集 以 及 控制 保护 模式 。 

1985 :80386 在 80286 体系 结构 的 基础 上 将 地 址 空间 扩展 到 32 位 。 除 了 32 位 的 寄存 器 和 
32 位 的 地 址 空间 ，80386 也 增加 了 一 些 新 的 寻 址 模式 和 额外 的 操作 。 增 加 的 指令 使 得 
80386 几乎 就 是 通用 寄存 器 的 处 理 器 。80386 还 增加 了 对 页 的 支持 并 提供 了 段 寻 址 〈 参 见 
第 5 章 )。 与 80286 一 样 ，80386 也 提供 能 运行 不 经 修改 的 8086 程序 的 模式 。 

1989 ~ 1995 接 下 来 在 1989 年 发 布 了 80486 ，1992 年 发 布 Pentium 处 理 器 ，1995 年 发 布 
Pentium Pro 处 理 磊 。 这 些 处 理 盏 都 是 以 获得 更 高 的 性 能 为 目的 的 ， 仅 有 四 个 指令 被 增加 
到 用 户 可 见 的 指令 集中 ， 其 中 三 个 有 助 于 多 处 理 技术 (参见 第 7 章 ) ， 另 一 个 是 条 件 传 
送 指令 。 

1997 : 在 Pentium 和 Pentium Pro 销售 后 ，Intel 公司 宣称 他 们 将 用 多 媒体 扩展 MMX (Mnulti 
Media Extension ) 来 扩展 Pentium 和 Pentium Pro 的 体系 结构 。 这 个 新 指令 集 包 含 57 条 指 
令 , 使 用 浮 点 栈 来 加 速 多 媒体 和 通信 应 用 程序 。MMX 通过 传统 的 单 指令 多 数据 (single 
instruction ，multiple data，SIMD) 的 方式 来 一 次 处 理 多 个 短 的 数据 元 素 (参见 第 7 章 ) 。 
Pentium 1 没有 引入 任 何 新 的 指令 。 

1999 :Intel 添加 了 70 个 指令 ,将 SSE (Streaming SIMD Extension) 作为 Pentium III 的 一 
部 分 。 主 要 的 变化 是 添加 了 8 个 独立 的 寄存 器 ， 把 它们 的 长 度 增加 到 128 位 ， 并 且 增 加 
了 一 个 单 精度 浮 点 数据 类 型 。 因 此 四 个 32 位 的 浮 点 操作 就 可 以 并 行进 行 。 为 了 改进 内 存 
性 能 ，SSE 还 包括 cache 的 预 取 指令 ， 以 及 可 以 绕 过 缓冲 器 直接 写 内 存 的 流 存 储 指令 。 
2001: Intel 公司 增加 了 另外 144 个 指令 。 这 次 命名 为 SSE2。 增 加 的 新 的 数据 类 型 是 双 精 
度 算术 ， 它 允许 并 行 操 作 64 位 浮 点 型 数据 对 。 这 144 个 指令 几乎 都 对 应 着 一 些 已 经 存在 
的 MMX 和 SSE 指令， 这 些 指令 并 行 操作 64 位 数据 。 这 种 变化 不 仅 允 许 更 多 的 多 媒体 操 
作 ， 并 且 与 单独 的 栈 架构 相 比 ， 编 译 器 多 了 一 个 新 的 浮 点 操作 目标 。 编 译 器 可 以 使 用 8 
个 SSE 寄存 胡来 充当 浮 点 寄存 器 。 这 种 改进 大 大 增强 了 第 一 个 包括 SSE2 指令 集 的 微 处 
理 带 Pentium 4 的 浮 点 性 能 。 

2003 : 这 次 是 AMD 改进 了 x86 体系 结构 ， 把 地 址 空间 从 32 位 增加 到 64 位。 与 1985 年 在 
80386 上 从 16 位 到 32 位 的 转变 类 似 ，AMD64 把 所 有 的 寄存 器 都 拓宽 到 64 位 ， 并 且 把 寄 
存 器 的 数目 增加 到 16， 把 128 位 的 SSE 寄存 器 数目 增加 到 16 个 。ISA 的 主要 变化 是 新 增 
加 了 一 个 模式 叫 长 模式 (long mode) ， 用 64 位 的 地 址 和 数据 来 重新 定义 所 有 x86 指令 的 
执行 。 为 了 寻 址 更 多 的 寄存 器 ， 给 指令 增加 了 新 前 级 。 根 据 计 算 方 式 ， 长 模式 还 添加 了 
4 到 10 个 新 的 指令 并 且 去 掉 了 27 个 旧 指 令 。PC 相对 寻 址 是 另 一 个 扩展 。AMD64 仍然 有 
一 个 和 x86 相同 的 模式 (遗产 模式 ) 并 且 增 加 了 一 个 模式 ， 以 限制 用 户 程序 使 用 x86 模 
式 , 但 是 却 允 许 操作 系统 使 用 AMD64 模式 (兼容 模式 )。 这 些 模式 使 它 成 为 比 HP/Inte 
IA-64 更 好 地 从 32 位 过 渡 到 64 位 寻 址 的 处 理 器 。 

2004 : Intel 届 服 并 吸纳 了 AMD64 ， 重 新 标记 为 Extended Memory64 Technology (EM64T), 
主要 的 区 别 是 Intel 增加 了 128 位 的 原子 比较 和 交换 指令 ， 这 个 本 应 在 AMD64 上 可 能 具 
有 的 指令 。 同 时 ，Intel 发 布 了 新 一 代 媒 体 扩展 。SSE3 添加 了 13 条 指令 来 支持 复杂 算术 ， 


通用 寄存 器 ( general-purpose register，GPR ) : 可 用 于 存储 任何 指令 的 地 址 或 数据 的 寄存 器 。 
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包括 在 结 梅 数 组 上 进行 的 图 形 操 作 ， 视 频 编码 ， 浮 点 转换 以 及 线程 同步 ( 见 2.11 小 
节 ) 。AMD 会 在 以 后 的 芯片 中 提供 对 SSE3 的 支持 。 而 且 它 几乎 肯定 能 够 把 原先 没有 的 原 
子 交 换 指令 次 加 到 AMD64 使 其 与 Intel 二 进 制 兼容 。 

。 2006 : 作为 SSE4 的 一 部 分 扩展 ，Intel 发 布 了 54 条 新 指令 。 这 些 扩展 都 是 针对 像 如 下 影 
响 性 能 的 因素 : 绝对 差 求 和 、 数 组 结构 的 点 积 计算 、 窗 数据 到 较 宽 的 数据 的 符号 或 零 扩 
展 ， 序 列 中 非 零 的 数目 统计 等 。 还 增加 了 对 虚拟 机 的 支持 〈( 见 第 5 章 )。 

。 2007: 作为 SSES 的 一 部 分 ，AMD 发 布 了 170 条 指令 ， 包 括 为 46 条 基本 指令 集中 的 指令 


增加 了 像 MIPS 的 3 操作 数 的 版 本 。 


。 2008 ，Intel 发 布 了 高 级 向 量 扩展 ， 同 时 将 SSE 寄存 器 从 128 位 扩展 到 256 位 ， 因 此 重新 
定义 了 250 条 指令 并 新 增 了 128 条 指令 。 

这 段 历 中 说 明了 兼容 性 这 个 “人 金 手 钳 ” 对 x86 的 影响 ， 体 系 结构 的 改变 不 允许 对 已 有 的 软 

件 产生 任何 的 危害 。 如 果 你 仔细 研究 x86 的 扩展 过 程 ， 你 会 发 现 这 种 体系 结构 平均 每 个 月 就 会 扩 


展 一 条 指令 。 


无 论 x86 结构 有 多 失败 ， 该 体系 结构 家 族 在 桌面 计算 机 上 的 应 用 比 任何 其 他 体系 结构 都 要 
多 ， 并 以 每 年 2.5 亿 的 速度 增长 。 然 而 ， 这 个 多 变 的 家 族 带 来 的 是 一 个 难以 解释 并 且 不 讨 人 喜欢 


的 体系 结构 。 


请 鼓 起 勇气 来 面 对 你 将 要 看 到 的 内 容 ! 不 要 带 着 需要 编写 x86 程序 的 担心 来 阅读 这 一 节 ， 实 
际 上 ， 本 节 的 目的 是 让 你 熟悉 这 一 世界 上 最 流行 的 台式 机 体系 结构 的 优 和 缺点 。 


本 节 我 们 主要 关心 的 是 80386 的 32 位 
指令 子 集 ， 它 也 是 在 当今 的 体系 结构 中 用 
到 的 ， 而 不 是 整个 16 位 和 32 位 指令 集 。 
我 们 从 寄存 器 和 寻 址 模式 开始 说 明 ， 接 下 
来 是 整数 操作 ， 最 后 考虑 指令 编码 。 


2. 17.2 x86 寄存 器 和 数据 寻 址 模式 


80386 的 寄存 器 展示 了 指令 集 的 进 
化 (图 2-36 所 示 )。80386 把 16 位 寄存 
嫩 《除了 段 寄 存 器 ) 扩展 为 32 位。 并 
用 前 统 下 来 标示 32 位 版 本 。 它 们 通常 
被 称 为 通用 寄存 器 ( general-purpose reg- 
ister，GPR) 。80386 只 有 8 个 通用 寄存 
船 ， 这 意味 着 MIPS 程序 使 用 四 倍数 量 
的 寄存 器 ， 而 ARM 可 以 使 用 2 倍数 量 
的 寄存 器 。 

图 2-37 展示 了 两 个 操作 数 的 算 
术 、 逻 辑 和 数据 传输 指令 。 它 们 有 两 
个 重要 的 不 同 之 处 。 首 先 x86 的 算术 
和 逻辑 指令 中 的 一 个 操作 数 必须 既是 
源 操作 数 又 是 目的 操作 数 ， 而 ARM 和 
MIPS 的 源 操作 数 和 目的 操作 数 是 不 同 
的 寄存 器 。 这 种 限制 给 有 限 的 寄存 器 
带 来 更 大 的 压力 ， 因 此 一 个 源 寄存 器 存 









cn 
GPR |] 
GPR 2 
. GPR 3 
| GpR4 
0 oo GPR 5 
， GPR 0 
GPR7 
“| 代码 段 指针 
| 人 Bat (本 ) 
| | Ri 针 。 
| 数据 段 指针 1 
| 数据 段 指针 2 
| 数据 段 指针 3 
”| 指令 指针 PC) 
or ， 条 件 码 





图 2-36 80386 寄存 器 组 


从 80386 开始 ， 上 面 的 8 个 寄存 器 扩展 到 32 位 并 可 以 当做 通用 寄 
内 使 用 。 
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必须 被 改变 。 第 二 个 重要 的 不 同 之 处 在 于 一 个 操作 数 可 以 在 存储 器 中 。 这 样 ， 实 质 上 任何 指 


令 都 可 能 有 一 个 操作 数 在 存储 器 中 。 这 与 “和 SEETSTETESTE 第 二 个 源 操作 数 
ARM 和 MIPS 不 同 。 

后 面 将 会 许 细 阐 述 儿 所 的 有 俏 带 村 二 构 
式 ， 在 指令 中 提供 两 种 位 长 的 地 址 。 这 种 所 
谓 的 偏 移 (displacements) 既 可 能 是 8 位 也 可 
能 是 32 位。 图 2-37 算术 、 逻 辑 和 数据 传输 指令 的 指令 格式 

， x86 所 允许 的 组 合 抑 上 表 。 唯 一 的 限制 是 没有 存储 器 ~ 存 

下 全 下 傅 各 洒 作 数 二 你 全 证 任何 可 拉 相 储 器 模式 。 立 即 数 可 以 是 8 位 、16 位 或 32 位 ; 寄存 器 可 以 
式 ， 但 是 每 种 模式 使 用 哪些 寄存 做 是 有 限制 是 图 2-36 中 主要 的 14 个 寄存 器 (不 能 是 EIP 或 EFLACS) 
的 。 图 2-38 展示 了 x86 寻 址 模式 和 每 种 模式 ”的 任意 一 个 。 


下 哪个 GPR 是 不 允许 使 用 的 ， 并 说 明 如 何 使 用 MIPS 指令 集 来 达到 相同 效果 。 
| 描述 《| 寄存 器 限制 等 价 的 MIPS 

























模式 | 
和 丰 着 间 接 导 址 | 地址 在 条 存 站 


8 位 或 32 位 偏 移 寻 地 址 是 基 址 寄存 器 与 偏 移 量 不 能 为 ESP lw $s0,100 ($sl)#<=16 bit 
址 模式 之 和 Hadisplacement 







地 址 是 mul $+t0, $s2, 
: GPR 
基 址 加 比例 下 标 寻 址 | 。 枯 址 + (2 此 名 下 标 ) :EO | agq $t0, $t0, $s1 
比例 是 0, 1, 2 或 3 l lw $s0,0¢($t0) 




























地 址 为 mul $t0, $s2,4 
8 位 或 32 位 偏 移 量 基 址 + (2 比例 * 下 标 ) + 偏 基 址 : 任何 GPR add $t0, $t0, $sl 
的 基 址 + 比例 下 标 寻 址 | 移 量 下 标 : 不 能 为 ESP lw $s0,100($t0})#86-bit 


比例 是 0,1, 2 或 3 


2-38 ”x86 有 寄存 器 使 用 限制 的 32 位 寻 址 模式 及 等 价 的 MIPS 代码 
ARM 和 MIPS 所 没有 的 ， 基 址 加 比例 下 标 寻 址 模式 ， 包含 在 x86 中 以 避免 将 寄存 器 中 的 下 标 鞭 4 (使 用 比例 因子 2) 
变 成 字 节 地 址 〈 见 图 2-2 和 2-27)。 比 例 因 子 1 用 于 16 位 数据 ，3 用 于 64 位 数据 。 比 例 因 子 0 意味 着 这 个 地 址 不 需 
要 按 比例 增加 。 在 第 二 种 或 第 四 种 模式 中 如 果 偏 移 量 比 16 位 长 ， 等 价 的 MIPS 需要 额外 的 两 条 指令 : lui 取 偏 移 量 
的 高 6 位 ，add 将 高 16 位 与 寄存 器 $sl 相 加 。(Jntel 的 基 址 寻 址 模式 还 有 另外 的 名 字 基 址 和 下 标 ， 但 是 它们 本 质 上 
是 等 同 的 ， 我 们 在 这 里 将 它们 合并 。) 


#displacement 





2. 17. 3 ”x86 整数 操作 


8086 提供 对 8 位 〈 字 节 ) 和 16 位 ( 字 ) 的 支持 。80386 在 x86 结构 中 加 入 了 32 位 的 地 址 和 
数据 ( 双 字 )。( AMD64 又 增添 了 64 位 的 地 址 和 数据 ， 叫 做 四 字 ; 本 小 节 我 们 将 关注 80386 。) 
数据 类 型 的 不 同 也 造成 了 寄存 器 操作 和 存储 器 访问 的 不 同 。 几 乎 所 有 操作 都 能 在 8 位 和 一 个 更 长 
的 数据 上 进行 。 这 个 最 长 的 数据 大 小 取决 于 运行 的 模式 ， 可 能 是 16 位 也 可 能 是 32 位 。 

显然 ， 有 些 程序 希望 操作 所 有 三 种 长 度 的 数据 ， 于 是 80386 系统 结构 提供 一 种 不 用 明显 
增加 代码 长 度 的 方便 途径 来 指定 每 一 种 形式 。 它 们 认为 大 多 数 程序 中 16 位 或 32 位 数据 占 绝 
大 多 数 ， 于 是 设 定 一 个 默认 的 较 长 长 度 是 有 意义 的 。 这 个 默认 的 数据 长 度 由 代码 段 寄 存 器 中 
的 一 位 指定 。 若 要 改变 默认 数据 长 度 ， 需 在 指令 前 附加 8 位 前 缀 告诉 机 器 这 条 指令 使 用 其 他 
数据 长 度 。 

使 用 前 缘 是 从 8086 借鉴 过 来 的 ，8086 可 使 用 多 种 前 组 来 改变 指令 的 行为 。 最 初 的 二 上 前 绥 
包括 忽略 默认 的 段 寄 存 器 ， 给 总 线 加 锁 来 支持 同步 ( 见 2.11 节 ) ， 或 重复 后 面 的 指令 直到 寄存 
请 ECX 减少 到 0。 最 后 一 个 前 级 要 配合 一 个 字 节 传送 指令 使 用 以 便 传送 可 变数 目的 字 节 ，。80386 
还 加 入 一 个 前 缀 以 改变 默认 的 地 址 长 度 。 
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x86 整数 操作 可 以 分 为 四 个 主要 的 类 : 

1) 数据 传送 指令 ， 包 括 move、push 和 pop。 

2) 算术 和 人 逻辑 指令 ,包括 测试 、 整 数 和 小 数 算术 运算 。 

3) 控制 流 ， 包 括 条 件 分 支 、 无 条 件 跳 转 、 调 用 和 返回 。 

4) 字符 串 指令 ， 包 括 字 符 串 传送 和 字符 串 比 较 。 

除了 算术 和 人 逻 辑 操 作 指 令 的 目的 既 可 以 是 寄存 器 也 可 以 是 存储 器 地 址 外 ， 前 两 个 种 类 没有 
值得 关注 之 处 。 图 2-39 展示 了 上 典型 的 x86 指令 和 它们 的 功能 。 


2 | En - 人 功能， 2 本 风 a . ， ， 本 人 i ee 
. if equal (condition code}) {EIP =name}:; 
jmp name 
Sp -SP AM SP] J EID 5, Bip nome, 


Mi EDI] =M[ ESI]; 
movs 1 
EDI =EDI +4; ESI =ESI +4 


2-39 ”x86 的 一 些 典型 指令 和 它们 的 功能 
常用 操作 的 列表 在 图 2-40 中 。CALL 将 下 一 条 指令 的 EIP 保存 在 栈 上 。(EFIP 是 Intel 的 程序 计数 器 。) 

x86 的 条 件 分 支 像 ARM 一 样 基于 条 件 码 (condition codes) 或 标志 位 〈flags) 。 条 件 码 是 作为 
一 些 操 作 的 副作用 被 设置 的 ， 大 部 分 被 用 作 将 结果 与 0 比较 ， 然 后 使 用 分 支 指 令 测试 条 件 码 。 
PC 相对 分 支 地 址 必须 以 字 节 数 来 指定 ， 这 与 ARM 和 MIPS 不 同 ，80386 的 指令 不 都 是 4 字 节 
长 的 。 

字符 串 指 令 是 x86 的 祖先 8080 的 一 部 分 ， 在 大 部 分 程序 中 都 不 使 用 。 它 们 常常 比 同等 功能 
的 软件 例 程 要 慢 ( 见 2. 18 节 的 误解 ) 。 

字符 串 指 令 是 IA-32 的 8080 家 族 的 一 部 分 ， 它 在 大 部 分 程序 中 都 不 被 使 用 。 它 们 常常 比 等 
同 的 软件 例 程 要 慢 (参考 2. 17 节 ) 。 

图 2-40 列 出 了 一 些 x86 的 整数 指令 。 这 些 指令 大 部 分 都 同时 有 字 节 和 字 格 式 。 






































条 件 和 无 条 件 分 支 


jnz,jz 条 件 成 立 跳 转 到 EIP +8 位 偏 移 量 ; JNE (for JNZ)，JE (for 芭 ) 两 者 之 一 
无 条 件 跳 转 -8 位 或 16 位 偏 移 量 


call 过 程 调用 - 16 位 偏 移 量 ; 返回 地 址 压 人 栈 中 
从 栈 中 弹出 返回 地 址 并 跳 转 到 该 地 址 处 


循环 分 支 -递减 ECX; 如 果 ECX 非 零 ， 则 跳 转 到 FIP +8 位 偏 移 处 


数据 传输 在 寄存 器 或 寄存 器 和 存储 器 之 间 传 递 数 据 . 


在 寄存 器 或 寄存 器 和 存储 器 之 间 传递 数据 


将 源 操 作 数 压 栈 ; 将 栈 顶 数据 取 到 寄存 器 中 
es 人 全 名 中 取 5 和 一个 CPRe 一 


2-40 一些 典型 的 x86 操作 
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人 
使 用 数据 寄存 器 和 存储 器 的 算术 和 有 远 辑 操作 





2-40 〈 续 ) 
很 多 操作 使 用 寄存 器 - 存储 器 格式 ， 这 种 格式 要 求 源 操作 数 或 目的 操作 数 可 以 是 存储 器 ， 另 一 个 操作 数 可 
以 是 寄存 器 或 立即 数 。 


2. 17. 4 ”x86 指令 编码 


把 最 糟 的 放 在 最 后 一 一 80386 的 指令 编码 是 非常 复杂 的 ， 有 多 种 不 同 格式 。 当 没有 操作 数 的 
时 候 80386 的 指令 可 以 是 1 字 节 ， 最 长 到 15 字 节 。 
图 2-41 展示 了 图 2-39 中 几 条 指令 的 格式 。 操 作 码 字 节 中 的 有 一 位 用 来 表明 操作 数 是 8 位 还 
4 4 8 


a) JE EIP+displacement 


5 
1 32 


4 
Ee 


e) ADD EAX, #6765 
32 


7 1 8 


fy TEST EDX, #42 


2-41 典型 的 x86 指令 格式 
图 2-42 给 出 后 午 字 节 (postbyte) 的 编码 。 很 多 指令 包含 1 位 的 w 段 ， 这 个 字段 说 明 操作 的 是 一 个 字 节 还 
是 一 个 双 字 。Mov 中 d 字段 用 于 从 存储 器 中 传 出 或 传人 数据 的 指令 并 指明 传输 方向 。ADD 指令 需要 32 位 的 立 
即 数 字段 ， 因 为 在 32 位 模式 下 ， 立 即 数 或 者 是 8 位 或 者 是 32 位 。TEsST 中 的 立即 数字 段 也 是 32 位 长 ， 是 因 
为 在 32 位 模式 下 没有 8 位 的 立即 数 要 判断 。 总 的 来 说 ， 指 令 长 度 可 以 从 1 字 节 到 17 字 节 变化 。 较 长 的 长 度 
产生 于 额外 的 1 字 节 前 级 ， 该 长 度 具 有 4 字 节 的 立即 数 和 4 字 节 的 偏 移 地 址 ， 使 用 2 字 节 的 操作 码 ， 并 使 用 
比例 下 标 模式 说 明 符 ， 这 还 需要 一 个 额外 的 字 节 。 
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是 32 位 。 一 些 指令 的 操作 码 可 能 还 包含 寻 址 模式 和 寄存 器 ， 例 如 ， 很 多 的 指令 具有 如 下 形式 
“寄存 器 = 寄存 器 操作 立即 数 。” 其 他 指令 使 用 寻 址 模式 的 “后 置 字 节 ”或 额外 的 操作 码 字 节 ， 
标记 为 “mod，reg，m”(〈 模 式 ， 寄 存 器 ， 寄 存 器 /存储 器 ) 。 这 个 后 置 字 节 在 寻 址 存储 器 的 很 
多 指令 中 都 被 用 到 。 基 址 加 比例 下 标的 寻 址 模式 需要 使 用 第 二 个 后 置 字 节 ， 标 记 为 “sc，index， 


base。” (比例 , 下 标 ， 基 址 )。 
图 2-42 展示 了 16 位 和 32 位 模式 的 两 个 后 置 字 节 地 址 指定 的 编码 。 不 便 的 是 ， 为 了 全 面 理 


H 
Dn 





图 2-42 x86 的 第 一 个 地 址 说 明 符 的 编码 : mod，reg，rm 

前 4 列表 示 3 位 的 reg 字段 ， 它 依赖 于 操作 码 中 的 w 位 以 及 机 器 是 工作 在 16 位 (8086) 模式 还 是 32 位 
(80386) 模式 。 余 下 的 字段 解释 了 mod 和 r/m 字段。3 位 的 wm 字段 依赖 于 2 位 的 mod 字段 和 地 址 的 大 小 。 
用 于 地 址 计算 的 寄存 器 列 在 第 六 和 第 七 列 中 ，mod = 0 时 依赖 于 寻 址 模式 ，mod = 1 时 加 上 8 位 的 偏 移 量 ， 
mod =2 时 加 上 16 位 或 32 位 的 偏 移 量 。 例 外 的 情况 有 以 下 几 种 (1) 当 mod =1 或 mod =2， 在 16 位 模式 时 ， 
rm=6 选择 BP 加 上 偏 移 。(2) 当 mod =1 或 mod =2， 在 32 位 模式 时 ，r/m =5 选择 EBP 加 上 偏 移 量 。 (3) 
当 mod 不 等 于 3， 在 32 位 模式 时 ，r/m =4，(sib) 代表 使 用 图 2-38 中 的 比例 下 标 模式 。 当 mod =3 时 ，r/m 字 
段 指定 一 个 寄存 器 ， 与 w 位 组 合 在 一 起 和 reg 字段 的 编码 相同 。 


2. 17.5 x86 总 结 


Intel 的 16 位 微 处 理 顺 比 它 的 竞争 对 手 的 更 优秀 的 体系 结构 (如 Motorola 68000) ， 早 两 年 问 
世 ， 这 个 领先 使 得 IBM 选用 8086 作为 其 PC 的 CPU。Intel 的 工程 师 普遍 认识 到 x86 要 比 ARM 和 
MIPS 的 计算 机 更 难 制造 ， 但 是 巨大 的 市 场 意味 着 AMD 和 Intel 可 以 投入 更 多 的 资源 来 克服 这 些 
额外 的 复杂 性 。 数 量 上 的 巨大 优势 弥补 了 风格 上 的 缺点 ， 这 使 得 x86 前 景 美好 。 

x86 中 最 常 使 用 的 体系 结构 组 成 部 分 是 不 难 实现 的 ， 从 1978 年 开始 AMD 和 Intel 就 展示 了 整 
数 程序 性 能 的 快速 改进 。 为 了 获得 这 样 的 性 能 ， 编译 圳 必须 避免 那些 难于 实现 快速 执行 的 体系 
结构 部 分 。 


2. 18 廖 误 与 陷阱 

误解 : 更 强大 的 指令 意味 着 更 高 的 性 能 。 

x86 的 一 个 强大 的 地 方 是 可 以 通过 前 缀 来 改变 后 续 指 令 的 执行 茶 个 前 缀 可 以 重复 执行 后 面 
的 指令 直到 一 个 计数 器 减少 至 0。 因 此 ， 为 了 在 存储 器 中 传输 数据 ， 看 起 来 最 自然 的 指令 序列 应 
该 是 使 用 加 了 重复 前 级 的 move 指令 来 实现 32 位 的 存储 器 到 存储 器 的 传输 。 

万 外 一 种 方法 是 使 用 所 有 计算 机 上 都 有 的 标准 指令 . 将 数据 取 到 寄存 器 后 再 存 回 存储 器 。 
这 种 形式 通过 代码 复制 来 减少 循环 开销 ， 复 制 操作 大 约 快 1.5 倍 。 第 三 种 方式 ， 使 用 更 大 的 浮 点 
寄存 器 代替 x86 的 整数 寄存 器 ， 复 制 操作 比 使 用 复杂 指令 快 2 倍 。 
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误解 : 使 用 汇编 语言 编程 来 获得 最 高 的 性 能 。 

通过 不 断 改 进 ， 编 译 器 产生 的 代码 与 手工 编写 的 代码 在 性 能 上 的 差距 正在 快速 缩小 。 事 实 
上 ， 为 了 与 当今 编译 器 竞争 ， 汇 编程 序 员 需 要 深刻 理解 第 4 章 和 第 5 章 中 的 计算 机 体系 结构 概念 
(包括 处 理 器 流水 线 和 存储 器 层次 ) 。 

编译 器 和 汇编 程序 员 之 间 的 斗争 正在 逐渐 消失 。 例 如 ，5 为 程序 员 提 供 一 个 指示 编译 器 把 变 
量 保存 在 寄存 器 中 而 不 是 换 出 到 存储 器 中 的 机 会 。 当 编译 器 在 寄存 器 分 配 上 能 力 较 差 时 ， 这 种 
指示 对 性 能 至 关 重 要 。 事 实 上 ， 一 些 较 老 的 C 语言 课本 花费 大 量 的 时 间 给 出 了 有 效 的 寄存 器 指 
未 的 例子 。 今 天 的 C 语言 编译 器 通常 忽略 这 种 指示 ， 因 为 编译 器 能 比 程序 员 更 好 的 分 配 寄存 器 。 

即使 手工 编写 会 产生 更 快 的 代码 ， 汇 编 语 言 编写 还 是 存在 很 多 危险 : 需要 更 多 时 间 编 码 和 
调试 ， 可 移植 性 差 ， 难 于 维护 。 软 件 工程 中 少数 几 个 被 广泛 接受 的 公理 之 一 是 编写 的 程序 行 数 越 
多 所 花 时 间 也 越 多 。 很 明显 使 用 汇编 语言 编写 的 程序 比 C 或 Java 更 长 。 一 旦 代码 写 好 ， 下 一 个 
危险 将 是 它 会 变 成 一 个 流行 的 程序 。 这 种 程序 存在 的 时 间 总 是 比 预 期 要 长 ， 意 味 着 程序 员 需 要 
每 隔 几 年 就 更 新 一 下 代码 使 新 的 版 本 可 以 运行 在 新 的 操作 系统 和 新 机 器 上 。 高 级 语言 而 不 是 汇 
编 语 言 编写 的 程序 不 仅 可 以 使 未 来 的 编译 器 为 未 来 的 机 器 生成 代码 ， 还 可 以 使 软件 易于 维护 并 


运行 在 其 他 类 型 的 计算 机 上 。 ,000 
误解 : 商用 计算 机 二 进 制 兼容 的 重 900 
要 性 意味 着 成 功 的 指令 集 不 需 改 变 。 800 
在 回 后 的 二 进 制 兼容 是 神圣 不 可 侵 7 
犯 的 同时 ， 图 2-43 显示 了 x86 指令 集 的 加 人 
快速 发 展 。 在 30 年 中 ， 平 均 每 个 月 至 少 下 100 
增加 一 条 新 的 指令 。 300 
陷阱 : 忘记 在 字 节 寻 址 的 机 器 中 ， 200 
连续 的 字 地 址 相差 不 是 1 。 100 


0 
SE NS 


很 多 汇编 程序 员 假 定 下 一 个 字 地 址 
可 以 通过 将 寄存 器 的 值 加 工 来 获得 ， 而 


不 是 增加 一 个 字 的 字 节 数 ， 这 使 他 们 犯 于 
下 很 多 错误 。 提 前 注意 以 便 有 所 准备 1! 图 2-43 随时 间 推移 x86 指令 集 的 增长 
这 种 扩展 是 有 一 定 的 技术 价值 的 ， 迅速 的 变化 也 增加 了 其 他 公司 


陷阱 : 在 自动 变量 的 定义 过 程 外 ， 
使 用 指针 指向 该 变量 。 

处 理 指针 的 常见 错误 是 使 用 指向 一 个 过 程 中 局 部 数组 的 指针 ， 从 该 过 程 传 出 结果 。 遵 从 图 
2-12 中 的 栈 规则 ， 当 过 程 返回 时 ， 包 含 局 部 数组 的 存储 器 将 立即 被 重新 使 用 。 指 向 自动 变量 的 
指针 会 造成 混乱 。 


2. 19 本章 小 结 


少 就 是 多 。 


试图 做 兼容 处 理 器 的 难度 。 


Robert Browning, 《Andrea del Sarto》，1855 
存储 程序 计算 机 的 两 个 准则 是 指令 的 使 用 与 数字 没有 区 别 ， 以 及 使 用 可 修改 的 存储 器 。 这 
择 准 则 使 一 台 计 算 机 可 以 在 不 同 的 领域 辅助 环境 科学 家 、 经 济 顾问 和 小 说 家 。 选 择机 器 可 以 理 
解 的 指令 集 需 要 精妙 的 平衡 程序 执行 需要 的 指令 数目 、 指 令 执 行 所 需 的 时 钟 周期 数 和 时 钟 的 束 
度 。 就 像 本 章 所 描述 的 ， 在 做 精妙 平衡 时 有 四 条 准则 可 以 指导 设计 者 ， 
1) 阐 羊 源 于 规整 。 规 整 性 使 MIPS 指令 集 具有 很 多 特点 ， 所 有 指令 长 度 统一 、 算 术 指 令 总 
是 需要 三 个 寄存 器 操作 数 和 寄存 器 字段 在 每 种 指令 格式 的 位 置 相同 。 
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2) 越 小 越 快 。 对 速度 的 要 求 导 臻 MIPS 只 有 32 个 寄存 器 而 不 是 更 多 。 

3) 加 速 常用 操作 。MIPS 加 速 常用 操作 的 例子 包括 条 件 分 支 中 PC 相对 寻 址 和 为 大 的 常数 操 
作 数 使 用 立即 数 寻 址 。 

4) 优秀 的 设计 需要 好 的 折 中 。 一 个 MIPS 例子 是 在 指令 中 提供 更 大 地 址 与 常数 ， 并 且 保 持 
所 有 的 指令 具有 相同 的 长 度 之 间 的 折 中 。 

机 器 语言 上 面 是 人 们 可 读 的 汇编 语言 。 汇 编 器 将 翻译 为 机 器 可 以 理解 的 二 进 制 数 ， 它 甚至 
通过 创造 硬件 中 没有 的 符号 指令 来 “扩展 ”指令 集 。 例 如 ， 较 大 的 常量 和 地 址 被 切割 成 合适 的 
大 小 ， 常 用 的 指令 变 体 都 有 它们 自己 的 名 字 等 等 。 图 2-44 列举 了 到 目前 为 止 我 们 讲 过 的 MIPS 指 
令 ， 包 括 实际 指令 和 伪 指 令 。 

MIPS 指令 
加 
三 
jnYm 数 


减 
取 字 
存 字 
与 
或 











MiPs 伪 指 令 格式 






人 
了 字 
取 无 符号 半 字 
| 丰 字 
| 取 字 
取 元 符 字 节 
有 字 
了 链接 宁 
_ 丰 条 件 字 
取 立 即 数 高 位 
SS 
或 
或 # 
与 外 数 | andi 
或 YB 数 
加 克 
_ 远 辑 右 移 
相等 时 距 转 
_ 不 相等 时 路 转 
小 时 置 位 | 
小 于 立即 数 时 置 位 | slti 
小 于 无 符号 立即 数 时 置 位 。 | sltin 


蔡 








Pd 







sub 
lw 
1h 
1hu 
sh 
1b 
bu 
b 
1 
C 
ui 
nd 
r 
Or 


1 
S 
1 
S 
1 
a 
0 
n 


Ori 
sll1 
srl 
ne 
ne 
lt 


b 
b 
S 






中转 | 
跳 转 至 寄存 器 所 指 位 置 jr 
跳 转 和 链接 jal 


2-44 到 目前 为 止 介绍 过 的 MIPS 指令 集 ， 左 侧 是 真实 的 MIPS 指令 ， 右 侧 是 伪 指 令 
附录 B 〈B. 20 小 节 ) 描述 了 完整 的 MIPS 体系 结构 。 图 2-1 展示 了 与 本 章 相 关 的 更 细致 的 MIPS 体系 机 构 。 
这 里 给 出 的 信息 可 在 本 书 文 前 的 MIPS 参考 数据 的 第 一 和 第 二 列 查 到 。 
每 一 类 MIPS 指令 与 编程 语言 中 出 现 的 结构 相关 : 
。 算术 指令 对 应 于 赋值 语句 中 的 运算 。 
。 数据 传输 指令 很 可 能 发 生 在 处 理 像 数组 和 结构 体 这 样 的 数据 结构 时 。 
。 条 件 分 支 被 用 于 站 语句 和 循环 。 





J 
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e 无 条 件 分 文 被 用 于 过 程 调 用 和 返回 以 及 case/switch 语句 。 
这 些 指令 出 现 频率 不 相等 ， 少 数 指令 出 现 频率 较 大 。 例 如 ， 图 2-45 展示 了 SPEC2006 中 每 类 
指令 出 现 的 频率 。 指 令 出 现 频率 的 不 同 在 数据 通路 、 控 制 通路 和 流水 线 的 特征 分 析 中 扮演 重要 


角色 。 


相应 的 高 级 请 言 





图 2-45 MIPS 指令 分 类 ， 范 例 ， 以 及 相应 的 高 级 编程 语言 结构 和 SPEC2006 测试 程序 执行 时 所 占 的 比例 
第 3 章 中 的 图 3-26 展示 了 每 条 MIPS 指令 执行 时 所 占 的 平均 比例 。 


在 第 3 章 解释 计算 机 算术 运算 之 后 ， 我 们 将 继续 揭示 MIPS 指令 集体 系 结构 。 


“2. 20 拓展 阅读 

本 站 概述 了 指令 集体 系 结构 (ISA) 的 历史 ,我 们 介绍 了 编程 语言 和 编译 器 的 简短 历史 。 
ISA 包括 累加 器 体系 结构 、 通 用 寄存 器 体系 结构 、 栈 体系 结构 和 ARM 及 x86 的 简 史 。 我 们 还 回 
顾 了 高 级 语言 计算 机 体系 结构 中 的 争议 问题 和 精简 指令 集体 系 结构 。 编 程 语言 的 历史 包括 For- 
tran 、Lisp 、Ajgol 、C 、Cobol 、Pascal 、Simula 、Smajlltajk 、C + + 和 Java。 编译 器 的 历史 包括 重要 
的 里 程 碑 和 实现 它们 的 先驱 。 本 节 剩 余部 分 在 CD 中 。 


2.21 练习 题 

本 章 习 题 由 加 州 大 波 莫 纳 分 校 圣路易斯 奥 比 斯 波 的 John Oliver 提供 ， 并 且 感 谢 阿 德 菜 德 大 学 
的 Nicole Kaiyan 以 及 佐治 亚 理工 学 院 的 Milos Prvulovic 。 

附录 B 描述 了 对 这 些 练习 有 帮助 的 MIPS 的 模拟 器 。 尽 管 模 拟 器 可 以 接受 伪 指 令 ， 但 是 在 求 
产生 的 MIPS 代码 的 习题 中 ， 尽 量 不 要 使 用 伪 指 令 。 你 的 目的 是 学 习 实际 的 MIPS 指令 集 ， 如 果 
问 你 指令 数 ， 你 所 给 出 的 答案 必须 反映 实际 执行 的 指令 数 而 不 是 伪 指 令 。 

有 些 情 次 必须 使 用 擅 指 令 〈 例 如 ， 当 汇编 时 不 知道 真实 值 时 ， 使 用 1a 指令 )。 还 有 些 情 况 
下 ， 使 用 伪 指 令 会 更 方便 并 使 代码 可 读 性 变 好 (例如 ，1i 和 move 指令 ) 。 如 果 你 因为 这 些 原因 
选择 使 用 擅 指 令 ， 请 在 擅 指 令 开始 的 地 方 加 上 一 两 句 话 ， 说 明 你 使 用 伪 指 令 的 原因 。 


习题 2.1 


以 下 问题 是 关于 从 C 翻译 到 MIPS 的 。 假 设 给 定 变量 g、h、i 和 j, 像 在 C 程序 中 声明 的 一 样 它们 都 
是 32 位 的 整数 。 


f=g+h+i+j; 
b. f=g+ (h+5); 


和 1.1 15j<2.2> 对 于 上 面 的 C 语句 ， 求 对 应 的 MIPS 汇编 代码 。( 使 用 最 少 的 MIPS 汇编 指令 。) 
2.1.2 [5] <2.2> 对 于 上 面 的 C 语句 ， 需 要 多 少 条 MIPS 汇编 指令 来 完成 ? 
.1.3 [5j <2.2> 如 果 变 量 E、g、h、 守 和 j， 分 别 取 值 1、 2、3、4 和 5，, 求 最 后 f 的 值 。 
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以 下 问题 是 关于 从 MIPS 翻译 到 C 的 。 假 设 给 定 变量 gs、h、i 和 j ， 像 在 C 程序 中 声明 的 一 样 它们 都 
是 32 位 的 整数 。 z 
3. add 工 9g, h 


addi f, f, 1 


b. add f£f, g, h 


2.1.4 [5] <2.2 > 对 于 上 面 的 MIPS 语句 ， 求 对 应 的 C 语句 。 
2.1.5 [5] <2.2 > 如果 变 量 f、g、h 和 i, 分别 取 值 1、2、3 和 4 , 求 最 后 £ 的 值 。 


习题 2.2 


以 下 问题 是 关于 从 C 翻译 到 MIPS 的 。 假 没 给 定 变 量 g、hn、i 和 j， 像 在 C 程序 中 声明 的 一 样 它们 都 
是 32 位 的 整数 。 


f=f+£f+i; 


b. f=g+ {(j +2); 


22.1 [5] <2.2> 对 于 上 面 的 C 语句 ， 求 对 应 的 MIPS 汇编 代码 。( 使 用 最 少 的 MIPS 汇编 指令 。) 
2.2.2 [5] <2.2 > 对 于 上 面 的 C 语句 ， 需 要 多 少 条 MIPS 汇编 指令 来 完成 ? 
2.2.3 [5] <2.2 > 如 果 变 量 £、g、h 和 i， 分 别 取 值 1、2、3 和 4，, 求 最 后 f 的 值 。 
以 下 问题 是 关于 从 MIPS 翻译 到 C 的 。 对 于 以 下 的 习题 ,假设 给 定 变量 g、h、i 和 j, 像 在 C 程序 中 
声明 的 一 样 它们 都 是 32 位 的 整数 。 


a. add f, f, h 


Sub f£, $0, f 
addi f, ££, 1 


b. 


2.2.4 [5] <2.2> 对 于 上 面 的 MIPS 语句 ， 求 对 应 的 C 语句 。 
2.2.5 [5] <22> 如 果 变 量 f、g、h 和 i， 依次 取 值 1!、2、3 和 4, 求 最 后 £ 的 值 。 
习题 2. 3 
以 下 问题 是 关于 从 C 翻译 到 MIPS 的 。 假 设 给 定 变量 f、g、h、i 和 j， 像 在 C 程序 中 声明 的 一 样 它们 
都 是 32 位 的 整数 。 
a : z f=f+g+h+i+j+2; 


hb f=g- (f+5); 


和 3.1 [5] <2.2> 对 于 上 面 的 C 语句 ， 求 对 应 的 MIPS 汇编 代码 。( 使 用 最 少 的 MIPS 汇编 指令 。) 
和 32 [5j <2.2> 对 于 上 面 的 C 语句 ， 需 要 多 少 条 MIPS 汇编 指令 来 完成 ? 
和 33 [5] <2.2 > 如 果 变 量 f、g、h、i 和 j 了 ,分 别 取 值 1、2、3、4 和 5， 求 最 后 £ 的 值 。 
以 下 问题 是 关于 从 MIPS 翻译 到 C 的 。 对 于 以 下 的 习题 ， 假 设 给 定 变量 9g、h、i 和 j, 像 在 C 程序 中 
声明 的 一 样 它们 都 是 32 位 的 整数 。 


a. add £f, -~-g, h 


b. 


.3.4 [5] <2.2 > 对 于 上 面 的 MIPS 语句 ， 求 对 应 的 C 语句 。 
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2.3.5 [5] <2.2> 如 果 变 量 f、g、h 和 1i， 依 次 取 值 1、2、3 和 4 ， 求 最 后 £ 的 值 。 


习题 2. 4 


以 下 问题 是 关于 从 C 翻译 到 MIPS 的 。 假 定 变量 £、g、n、i 和 Jj， 依 次 分 配 到 寄存 器 $s0、$sl、 
$s2 、$s3 和 $s4。 假 设 数组 A 和 了 B 的 基地 址 依次 存放 在 寄存 器 $s6 和 $s7 中 。 


a. f=gqg+h+B[4]; 
b. f=g - ALB[4]]; 


2.4.1 [110] <2.2, 2.3> 对 于 上 面 的 C 语 句 ， 求 对 应 的 MIPS 汇编 代码 。 
2.4.2 [5] <2.2,2.3 > 对 于 上 面 的 C 语 名， 需要 多 少 条 MIPS 汇编 指令 来 完成 ? 
2.4.3 [5] <2.2，2.3> 对 于 上 面 的 C 语句 ， 需 要 多 少 个 不 同 寄存 器 来 完成 该 功能 ? 
以 下 问题 是 关于 从 MIPS 翻译 到 C 的 。 假 定 变 量 f、g、h、i 和 jj， 依 次 分 配 到 寄存 器 $s0、$s1、 
$s2、$s3 和 $s4。 假设 数 组 A 和 B 的 基地 址 依次 存放 在 寄存 器 $s6 和 $s7 中 。 
add $s0, $s0, $sl 
add $s0,， $s0, $s2 


add 书 sS0， 书 s0，$s3 
add  $s0，$s0，$s4 


b. J]w $s0, 4 ($s6) 


2.4.4 [10] <2.2, 2.3 > 对 于 上 面 的 MIPS 汇编 指令 ， 求 对 应 的 C 语句 。 

2.4.5 [5] <2.2，2.3> 对 于 上 面 的 MIPS 汇编 指令 ,求实 现 相同 功能 可 用 的 最 少 的 汇编 代码 。 

2.4.6 [5] <2.2, 2.3 > 对 于 上 面 的 MIPS 汇编 代码 ， 使 用 多 少 个 寄存 器 能 实现 功能 ?对 于 上 题 如 果 重 写 了 
人 代码， 至少 要 多 少 个 寄存 器 才能 实现 功能 ? 


习题 2. 5 
以 下 问题 是 关于 MIPS 处 理 器 中 存储 器 操作 的 。 下 表 展 示 了 存储 在 存储 器 中 的 数组 的 值 。 


Address 
16 






2.5.1 110] <2.2, 2.3 > 基于 上 表 中 数据 在 存储 器 中 的 位 置 ， 求 一 段 C 代码 ， 将 数据 从 小 到 大 排序 ， 最 小 
的 数 放 在 地 址 最 低 的 位 置 。 (假设 这 段 数据 代表 了 C 的 一 个 整数 数组 ， 并 且 这 人 台 特 别 的 机 器 是 按照 
字 节 寻 址 的 ， 且 一 个 字 包 含 4 字 节 。) 

5.2 [10] <2.2, 2.3 > 基于 上 表 中 数据 在 存储 器 中 的 位 置 ， 求 一 段 MIPS 代码 ， 将 数据 从 小 到 大 排序 ， 
最 小 的 数 放 在 地 址 最 低 的 位 置 。( 使 用 最 少 的 MIPS 汇编 指令 ， 假 设 Array 的 基地 址 保存 在 寄存 器 
$s6 中 。) 

25.3 [5] <22，2.3> 为 了 对 数组 排序 ，MIPS 代码 需要 多 少 条 指令 ? 如 采 不 允许 在 使 用 lw 和 sw 指令 的 
时 候 使 用 立即 数字 段 ， 那 么 需要 多 少 条 MIPS 指令 完成 相同 功能 ? 

以 下 问题 是 关于 将 十 六 进 制 数字 转换 成 其 他 进 制 格式 。 


a 0x12345678 


bh. Oxbeadf00d 
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2.5.4 [5] <2.3 > 将 上 表 中 的 十 六 进 制 数 转换 成 10 进 制 数 。 
2.5.5 [5] <2.3 > 分 别 画 出 上 表 中 的 数据 在 大 端 编 址 和 小 端 编 址 的 机 器 上 是 如 何 分 布 在 存储 右 中 的 。( 假 


定数 据 从 地 址 0 开始 存储 。) 


习题 2.6 


以 下 问题 是 关于 从 C 翻译 到 MIPS 的 。 假 定 变量 f、g、h、i 和 JJ， 分 别 分 配 到 寄存 器 $s0、$sil、 
$s2 、$s3 和 $s4。 假 设 数组 入 和 B 的 基地 址 依次 存放 在 寄存 器 $s6 和 $s7 中 。 


a. f=-g+h+B[1]; 
b. | f=A[BLg] +1]; 


2.6.1 [10] <2.2,2.3 > 对 于 上 面 和 的 C 语 句 ， 求 对 应 的 MIPS 汇编 代码 。 
2.6.2 [5] <2.2，2.3 > 对 于 上 面 的 C 语句 ， 需 要 多 少 条 MIPS 汇编 指令 来 完成 该 功能 ? 
2.6.3 [5] <2.2，2.3> 对 于 上 面 的 C 语句 ， 使 用 MIPS 汇编 语言 需要 多 少 个 不 同 寄 存 器 来 完成 该 功能 ? 
以 下 问题 是 关于 从 MIPS 翻译 到 C 的 。 假 定 变量 E、g、h、i 和 jj， 依次 分 配 到 寄存 器 $s0、$sl、 
$s2、$s3 和 $s4。 假 设 数 组 A 和 B 的 基地 址 依次 存放 在 寄存 器 $s6 和 $s7 中 。 


2.6.4 [5] <2.2，2.3> 对 于 上 面 的 MIPS 汇编 指令 ， 求 对 应 的 C 语句 。 
2.6.5 [5] <2.2, 2.3 > 对 于 上 面 的 MIPS 汇编 指令 ， 假 设 寄存 器 $s0、$sl、$s2 和 $s3 分 别 取 指 10， 
20，30 和 40， 并 假设 寄存 器 $s6 中 的 值 为 236， 存 储 器 中 包含 下 列 值 












addqi $s6, $s6, -20 
add $s6, $s6, $sil 
WwW $s0, 8 {$s6) 


adqd $s0, $s0, $sl 
add SO0， 圳 s3， 避 Ss2 
add $s0, $s0, $s3 








地 址 值 
256 100 
260 200 
264 300 


求 最 终 寄存 器 $s0 中 的 值 。 
2.6.6 [10] <2.3，2.5 > 求 每 条 MIPS 指令 的 下 列 字段 值 : op、rs 和 rt 字段。 对 于 1 型 指令 ， 求 立即 数字 段 
的 值 。 对 于 R 型 指令 ， 求 rd 字段 的 值 。 


习题 2.7 
以 下 问题 是 关于 从 有 符号 和 无 符号 二 进 制 数 转换 到 十 进 制 数 的 。 

z a 1010 1101 0001 0000 0000 0000 0000 0010。 

hb. 1111 1111 1111 1111 1011 0011 0101 0011, 


2.7.1 [5] <2.4 > 假定 上 表 中 是 两 个 补 码 表 示 的 整数 ， 求 它们 表示 的 十 进 制 数 。 
2.7.2 [5] <2.4 > 假定 上 表 中 是 两 个 无 符号 整数 ， 求 它们 表示 的 十 进 制 数 。 
27.3 [5] <2.4> 求 上 表 中 位 模式 表示 的 十 六 进 制 数 。 

以 下 问题 是 关于 从 十 进 制 数 转换 到 有 符号 和 无 符号 二 进 制 数 的 。 


2147483647,0 
b. 10001o 


和 7.4 [5] <2.4> 求 上 表 中 的 十 进 制 数 的 二 进 制 表示 的 补 码 表示 形式 。 
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2.7.5 [5] <2.4> 求 上 表 中 的 十 进 制 数 的 十 六 进 制 表示 的 补 码 表示 形式 。 
2.7.6 [5] <2.4> 求 上 表 中 的 十 进 制 数 的 相反 数 的 十 六 进 制 表 示 的 补 码 表示 形式 。 


习题 2.8 
以 下 问题 关于 符号 扩展 和 溢出 。 寄 存 器 $s0 和 $sl 中 的 值 见 下 表 。 按 照 MIPS 指示 操作 这 些 寄存 器 并 求 
得 结果 。 
$s0 =7000000016, $sl =0x0FFFEFFEEFI16 
b, $s0 =0x4000000016, $sl =0x4000000016 


2.8.115] <2.4 > 寄存 器 $s0 和 $sl 的 值 由 上 表 指 定 ， 求 执行 下 面 汇 编 代码 后 寄存 器 $to 中 的 值 。 
add  $t0, $s0,$si 
$t0 中 的 值 是 希望 得 到 的 结果 还 是 发 生 了 溢出 ? 

2.8.2 [5] <2.4 > 寄存 器 $s0 和 $sl 的 值 由 上 表 指 定 ， 求 执行 下 面 汇 编 代 码 后 寄存 器 $t0 中 的 值 。 
sub $t0O, $s0, $sl 
$t0 中 的 值 是 希望 得 到 的 结果 还 是 发 生 了 溢出 ? 

2. 8.3 [5] <2.4> 寄 存 器 $s0 和 $sl 的 值 由 上 表 指 定 ， 求 执行 下 面 汇编 代码 后 寄存 器 $t0 中 的 值 。 


add  $t0,$s0,$sl 
add $t0,$t0,$s0 
$t0 中 的 值 是 希望 得 到 的 结果 还 是 发 生 了 溢出 ? 
以 下 问题 是 天 于 不 同 的 MIPS 指令 对 一 对 寄存 器 $s0 和 $sl 进行 操作 。 $s0 和 $sl 的 值 由 每 题 单独 指 


aA. add $s0, $s0, $sl 


sub $s0, $s0, $sl 
sub $s0, $s0, $sl 


b. 


2.8.4 [5] <2.4 > 假设 寄存 器 中 的 值 分 别 为 $s0 =0x70000000 and $si =0xl0000000。 对 于 上 表 中 的 指令 
序列 ， 会 发 生 溢出 吗 ? 

2.8.5 [5] <2.4 > 假设 寄存 器 中 的 值 分 别 为 $s0 = 0x40000000 and $sl =0x20000000。 对 于 上 表 中 的 指令 
序列 ， 会 发 生 溢出 吗 ? 

2.8.6 [5] <2.4 > 假设 寄存 器 中 的 值 分 别 为 $s0 =0x8FFFFFFF and $sl =0xD0000000。 对 于 上 表 中 的 指令 
序列 ， 会 发 生 溢出 吗 ? 


习题 2.9 
下 表 包 含 了 寄存 器 8sl 的 不 同 的 值 。 对 于 给 定 的 操作 ， 判 断 是 否 发 生 溢 出 。 


2147483647,。 
b. 0xD0000000,。 


2.9.1 [5]<2.4 > 假设 寄存 器 $so 中 的 值 是 0x70000000， 寄 存 器 $ sl 中 的 值 由 上 表 给 出 。 如 果 执 行 指 今 
add $s0，$s0，$sl， 会 发 生 滋 出 吗 ? 

2 和 92 [5] <2.4 > 假设 寄存 器 $s0 中 的 值 是 0x80000000， 寄 存 器 $ sl 中 的 值 由 上 表 给 出 。 如 果 执 行 指令 
sub $s0，$s0，$sl， 会 发 生 涪 出 吗 ? 

2.9.3 [5] <2.4 > 假设 寄存 器 $s0 中 的 值 是 0x7FFFFFFF ， 寄 存 器 $ sl 中 的 值 由 上 表 给 出 。 如 果 执 行 指令 
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sub $s0，$s0，$sL ， 会 发 生 游 出 吗 ? 
下 表 包 含 寄 存 器 $sl 的 不 同 值 ， 求 对 于 给 定 的 操作 ， 是 否 发 生 溢 出 。 


| 1010 1101 0001 0000 0000 0000 0000 0010， 
b. 1111 1111 1111 1111 1011 0011 0101 0011， 


2.9.4 [4] <2.4 > 假设 寄存 器 $s0 中 的 值 是 0x70000000， 寄存器 $ si 中 的 值 由 上 表 给 出 。 如 果 执 行 指 令 
add $s0，$s0，$sl ， 会 发 生 溢出 吗 ? 

2.9.5 [4] <2.4> 假 设 寄存 器 $s0 中 的 值 是 0x70000000， 寄 存 器 $sl 中 的 值 由 上 表 给 出 。 如 果 执 行 指令 
adqd $s0，$s0，$s1 ， 求 最 终 的 结果 。( 用 十 六 进 制 表示 。) 

2.9.6 [4] <2.4> 假 设 寄 存 器 $s0 中 的 值 是 0x70000000， 寄 存 器 $sl 中 的 值 由 上 表 给 出 。 如 果 执 行 指令 
aqq $s0，$s0，$sl ， 求 最 终 的 结果 。( 用 十 进 制 表示 。) 


习题 2. 10 
以 下 问题 是 关于 将 表 中 表示 指令 操作 的 位 条 目 转换 成 汇编 代码 并 且 指 出 每 条 MIPS 指令 的 格式 。 

a 1010 1110 0000 1011 0000 0000 0000 0100， 

b. 1000 1101 0000 1000 0000 0000 0100 0000， 


2.10.1 [5] <2.5 > 求 上 面 的 位 条 目 分 表 表 示 什 么 指令 。 
.10.2 [5] <2.5> 求 上 面 的 位 条 目 所 表示 的 指令 的 类 型 (I 型 或 RR 型 )。 
和 10.3 [5] <2.5 > 如 果 上 面 的 位 条 目 是 数据 ， 求 上 面 数字 的 十 六 进 制 表示 。 
以 下 问题 是 关于 将 表 中 的 MIPS 指令 转换 成 位 模式 并 且 指 出 每 条 MIPS 指令 的 格式 类 型 。 


a. add $t0, $t0, $zero 
b. lw $tl, 4 ($s3) 


2.10.4 [5] <2.4, 2.5 > 求 上 表 中 指令 的 十 六 进 制 表示 。 

2.10.5 [5] <2.5 > 求 上 面 指 令 的 类 型 (I 型 或 R 型 )。 

2 10.6 [5] <2.5 > 求 指令 的 十 六 进 制 表示 的 opcode、rs 和 直 字 有 段 ; 对 于 R 型 指令 , 求 十 六 进 制 表示 的 羽 
和 funct 字段 ， 对 于 工 型 指令 ， 求 十 六 进 制 表示 的 立即 数字 段 。 


习题 2. 11 
以 下 问题 是 关于 将 表 中 表示 指令 操作 的 位 条 目 转换 成 汇编 代码 并 且 指 出 每 条 MIPS 指令 的 格式 。 


OxAEO0OBFFFC 
bh. Ox8D0O8FFCO 


11.1 |5] <2.4, 2.5> 求 上 面 十 六 进 制 数 所 表示 的 二 进 制 数 。 
.11.2 [5] <2.4, 2.5 > 求 上 面 十 六 进 制 数 所 表示 的 十 进 制 数 。 
.11.3 [5] <2.5> 求 上 面 十 六 进 制 数 所 表示 的 指令 。 
以 下 间 题 是 根据 表 中 所 含 的 MIPS 指令 不 同 字段 的 值 来 求 得 指令 并 指出 指令 的 类 型 。 


op=0, rs~1, rt=2, rd=3, shamt =0, funct =32 
b. op =0x2B, rs =0x10, rt =0x5, const =0x4 


.11.4 [5] <2.5 > 求 上 表 所 表示 的 指令 的 类 型 (I 型 或 R 型 )。 
2.11.5 [5] <2.5 > 求 上 表 所 表示 的 汇编 指令 。 
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2.11.6 [5] <2.4, 2.5> 求 上 表 所 表示 的 指令 的 二 进 制 表示 。 


习题 2. 12 
在 下 面 的 问题 中 ， 数 据 表 中 包含 一 些 对 MIPS 指令 集体 系 结构 的 修改 。 指 出 这 些 修改 对 MIPS 体系 结构 
指令 集 格式 的 影响 。 


a, 8 registers 


b. 10 bit immediate constants 


2.12.1 [5] <2.5 > 如果 MIPS 处 理 器 的 指令 集 改 变 了 ， 指 令 的 格式 也 将 被 改变 。 对 于 上 表 中 的 每 种 修改 ， 
求 R 型 指令 格式 不 同 字段 的 位 数 ， 每 条 指令 一 共 需 要 多 少 位 。 
2. 12.2 [5] <2.5 > 如 果 MIPS 处 理 器 的 指令 集 改变 了 ， 指 令 的 格式 也 将 被 改变 。 对 于 上 表 中 的 每 种 修改 ， 
求 1 型 指令 格式 不 同 字段 的 位 数 ， 每 条 指令 一 共 需 要 多 少 位 。 
2.12.3 [5] <2.5，2. 10 > 请 说 明 为 什么 上 述 修改 会 减少 整个 MIPS 汇编 程序 的 大 小 ?为 什么 上 述 修改 又 会 
增加 整个 MIPS 汇编 程序 的 大 小 ? 
在 下 面 的 问题 中 ， 数据 表 中 包含 十 六 进 制 的 值 。 指 出 这 些 值 表 示 的 MIPS 指令 是 什么 ， 并 指出 这 些 指 
令 的 类 型 。 
Ox01090010 
b. Ox8D090012 


2.12.4 [5] <2.5 > 求 上 表 中 十 六 进 制 数 所 表示 的 十 进 制 值 。 
2.12.5 [5] <2.5> 求 上 表 中 十 六 进 制 数 所 表示 的 指令 。 
2.12.6 [5] <2.4, 2.5> 求 上 表 中 十 六 进 制 数 所 表示 指令 的 类 型 ， 并 求 op 和 字段 的 值 。 


习题 2. 13 


在 下 面 的 问题 中 ， 数 据 表 中 包含 寄存 器 $to 和 $tl 的 值 。 按 照 下 面 的 逻辑 指令 对 这 些 寄存 器 进行 
操作 。 


a. $t0 =0x55555555, $tl1 =0x12345678 
b. $t0 =0xBEADFEED, $t1 =0xDEADFADE 
2.13.1[5] <2.6 > 求 执行 下 面 的 指令 序列 后 寄存 器 $t2 的 值 。 


sll $t2, $t0,4 
Or $t2, $t2, $t1 


2.13.2[5] <2.6> 求 执行 下 面 的 指令 序列 后 寄存 器 $t2 的 值 。 


Sll] $t2,$t0,4 
andi $t2,$t2,—1 


2.13.3 [5] <2.6 > 求 执行 下 面 的 指令 序列 后 寄存 器 $t2 的 值 。 


Srl $$t2,$t0,3 
andi $t2, $t2,0xFFEF 


在 下 面 的 练习 中 ， 数据 表 中 包含 不 同 的 MIPS 逻辑 操作 ， 对 于 给 定 的 不 同 寄存 器 $to 和 $t1 值 ， 求 这 


些 操 作 最 终 的 结果 。 
Sll $t2, $t0, 1 
or $t2, $t2, $t1 















srl $t2, $t0, 1 
andi $t2, $t2, 0x00F0 
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2.13.4 [5] <2.6> 假 设 $t0 =0x0000ASA5， Stl =00005ASA。 求 执行 上 表 中 的 指令 后 最 终 寄 存 器 $t2 中 的 值 。 
2.13.5 [5] <2.6 > 假设 $t0 =0xA5A50000，S$t1 =A5A50000。 求 执行 上 表 中 的 指令 后 最 终 寄存 器 $t2 中 的 值 。 
2. 13.6 [5] <2.6> 假 设 $t0 =0xA5A5FFFF，$t1 = A5A5FFFF。 求 执行 上 表 中 的 指令 后 最 终 寄存 器 $t2 中 的 值 。 











习题 2. 14 
下 表 展 示 了 寄存 器 $t0 中 位 字段 的 放置 情况 。 

31 i ] 0 

| ] Field ] 
31-i 位 i~j 位 j 位 


在 下 面 的 问题 中 ， 你 将 要 使 用 MIPS 指令 从 寄存 器 $t0 中 提取 “Field” 字 段 ， 然 后 将 该 字段 存 人 下 表 
中 所 示 的 寄存 器 $tl 的 相应 位 置 。 
31 i | 


O000.0 00 ] Field ] 


14+-j 位 























1 
oo00000] Picea ooo0o06 





2.14.1 [20] <2.6 > 求 最 短 的 MIPS 指令 序列 ， 当 i=22，j =5 时 ， 该 指令 序列 从 寄存 器 $t0 中 提取 Field 
字段 ， 并 存 人 上 表 中 所 显示 的 寄存 器 $tl 的 相应 位 置 。 

2 14.2 [20] <2.6> 求 最 短 的 MIPS 指令 序列 ， 当 i=4，j =0 时 ， 该 指令 序列 从 寄存 器 $t0 中 提取 Field 字 
段 ， 并 存 人 上 表 中 所 显示 的 寄存 器 $tl 的 相应 位 置 。 

2 14.3 [20] <2.6 > 求 最 短 的 MIPS 指令 序列 ， 当 i=31, j=28 时 ， 该 指令 序列 从 寄存 器 $t0 中 提取 Field 
字段 ， 并 存 人 上 表 中 所 显示 的 寄存 器 $tli 的 相应 位 置 。 

在 下 面 的 问题 中 ， 你 将 要 使 用 MIPS 指令 从 寄存 器 $to 中 提取 “Field” 字 段 ， 然后 将 该 字段 存 人 下 表 
中 所 示 的 寄存 器 Stl 的 相应 位 置 。 标 记 为 “xxx” 的 位 值 是 不 变 的 。 


31 i 一 ] 
XXX.XXNX Field | 
b,| 31 14+ -jj 位 14 0 


(xxx.xXx | KX... 儿 父 义 Fielqd 其 其 其 .--X 其 六 | 


14.4 [20] <2.6> 求 最 短 的 MIPS 指令 序列 ， 当 i = 17，j =11 时 ， 该 指令 序列 从 寄存 器 $t0 中 提取 Field 
字段 ， 并 存 人 上 表 中 所 显示 的 寄存 器 $t1 的 相应 位 置 。 

2 14.5 [20] <2.6> 求 最 短 的 MIPS 指令 序列 ， 当 i=5，j =0 时 ， 该 指令 序列 从 寄存 器 St0 中 提取 Field 字 
段 ， 并 存 人 上 表 中 所 显示 的 寄存 器 $t1 的 相应 位 置 。 

2.14.6 [20] <2.6 > 求 最 短 的 MIPS 指令 序列 ， 当 i=31，j =29 时 ， 该 指令 序列 从 寄存 器 $t0 中 提取 Field 
字段 ， 并存 人 上 表 中 所 显示 的 寄存 器 $tl 的 相应 位 置 。 


习题 2. 15 
在 下 面 的 问题 中 ， 表 中 所 含 的 逻辑 指令 都 不 是 MIPS 指令 集中 所 包含 的 。 请 问 如 何 实 现 这 些 指令 ? 





























8. angdn S$tl, $t2, S$t3 // bit-wise AND of $t2,! $t3 
b. xnor $tl, $t2, $t3 // bit-wise exclusive-NOR 


2.15.1 [5] <2.6 > 对 于 上 表 中 不 包含 在 MIPS 指令 集中 的 逻辑 指令 ， 如 果 寄 存 器 $t2 -0xOOFFASAS, $t3 = 
0xFFFF003C， 最 终 寄存 器 $t1 的 值 是 多 少 ? 
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2.15.2 [10] <2.6 > 上面 的 逻辑 指令 不 包括 在 MIPS 指令 集中 ,但 是 可 以 使 用 一 条 或 多 条 MIPS 汇编 指令 实 
现 。 请 用 最 少 的 MIPS 指令 序列 来 代替 上 表 中 的 指令 。 
2.15.3 [5] <2.6 > 对 于 2. 15.2 中 的 指令 序列 ， 写 出 每 条 指令 的 位 级 的 表示 。 
下 表 展 示 了 C 语言 级 别 上 不 同 的 逻辑 语句 。 请 用 MIPS 汇编 指令 实现 这 些 C 语言 功能 。 


A=B&Cc [0]; 
b. A=A?B: C1[0] 


2.15.4 [5] <26 > 上 表 中 展示 了 不 同 的 C 语句 的 逻辑 操作 。 如 果 存 储 器 中 C [01 位 置 的 值 为 
0x00001234， 整 数 A 和 B 的 初始 值 是 0x00000000 和 0x00002222， 求 最 终 A 的 值 。 

2.15.5 [5] <2.6 > 对 于 上 面 的 C 语句 ， 请 用 最 少 的 MIPS 汇编 指令 序列 实现 相同 的 功能 。 

2.15.6 [5] <2.6> 对 于 2.15.5 中 的 指令 序列 ， 请 写 出 每 条 指令 的 位 级 的 表示 。 


习题 2. 16 
下 表 是 寄存 器 $t0 的 不 同 二 进 制 值 。 对 于 给 定 的 $to 值 ， 请 计算 不 同 分 支 的 效果 。 


1010 1101 0001 0000 0000 0000 0000 0010， 
b. 1111 1111 1111 1111 1111 1111 1111 1111， 


2.16.1 [5] <2.7 > 假设 寄存 器 $to 的 值 来 自 上 表 ， 寄 存 器 $tl 的 值 为 : 


0011 1111 i1111 1000 0000 0000 0000 0000， 


求 执行 下 面 的 指令 后 寄存 器 $t2 的 值 。 


slt $t2, $t0, $tl 
beq $t2, $zero,ELSE 
J DONE 
ELSE: addi $t2, $zero,2 
DONE : 


2 16.2 [5] <2.7 > 假设 寄存 器 $to 的 值 来 自 上 表 。 使 用 下 面 的 MIPS 指令 , 将 $to 与 值 X 相 比较 。 求 使 $ 
t2 值 为 1 的 值 X。 


siti $t2, $t0,X 


和 .16.31[5」<2.7 > 假设 程序 计数 器 PC 被 设置 为 0x0000 0020。 请 问 可 以 使 用 MIPS 汇编 指令 集中 的 跳 转 
指令 将 PC 设置 为 上 表 中 的 值 吗 ? 有 可 能 使 用 等 于 则 跳 转 指令 (beq) 将 PC 设置 为 上 表 中 的 地 址 
值 吗 ? 
对 于 以 下 问题 ， 表 中 的 值 为 寄存 器 $to 的 不 同 的 二 进 制 值 。 对 于 给 定 的 值 $t0， 请 计算 不 同 分 支 的 
效果 。 


: Ox00001000 
b. 0x20001400 


2.16.4 [5] <2.7 > 假设 寄存 器 $to 的 值 来 自 上 表 。 求 执行 下 面 的 指令 序列 后 $t2 的 值 。 


slt $t2, $t0, $tO 
bne $t2, $zero,ELSE 
] DONE 
ELSE: addi $t2, $t2, 2 
DONE : 


和 16.5 [5] <2.6，2.7> 假 设 寄存 器 St0 的 值 来 自 上 表 。 求 执行 下 面 的 指令 序列 后 $t2 的 值 ? 
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S11 $t0, $$t0, 2 
slt $t2, $t0, $zero 


2.16.6 [5] <2.7 > 假设 程序 计数 器 PC 被 设置 为 0x2000 0000。 请 问 可 以 使 用 MIPS 汇编 指令 集中 的 跳 转 指 
令 将 PC 设置 为 上 表 中 的 值 吗 ? 有 可 能 使 用 等 于 则 跳 转 指 令 (beq) 将 PC 设置 为 上 表 中 的 地 址 


值 吗 ? 
习题 2. 17 
对 于 以 下 问题 ， 表 中 是 几 条 MIPS 指令 集中 没有 的 指令 。 
a. abs $t2, $t3 #R[ raj = IR[rt]| 
b. sgt $tl, $t2, $t3 # R[Lrd] = (RLrs] >R[rt])?1:0 


2.17.1 [5] <27> 上 表 中 给 出 了 MIPS 指令 集中 没有 的 指令 和 每 条 指令 的 描述 。 请 问 这 些 指令 为 什么 没 被 
包含 到 MIPS 指令 集中 ? 
2.17.2 [5] <2.7 > 上 表 中 给 出 了 MIPS 指令 集中 没有 的 指令 和 每 条 指令 的 描述 。 如 果 这 些 指令 已 经 在 MIPS 
指令 集中 实现 ,请 问 最 可 能 的 指令 格式 是 什么 ? 
2.17.3 [5] <2.7 > 对 于 上 表 中 的 指令 ,求实 现 相同 功能 的 最 短 的 MIPS 指令 序列 。 
对 于 以 下 问题 ， 表 中 是 MIPS 汇编 代码 段 。 评 估 每 个 代码 段 ， 并 熟悉 不 同 的 MIPS 分 支 指令 。 





$0,， 
LOOP2: addi $s2, $s2, 2 


$t2, $0, $tl 
bne $t2, $2zero,ELSE 









] DONE subi $t2, $$t2, 1 
3. ELSE: addi $s2, $s2,2 bne $t2, $0, LOOP2 
subi $tl, S$tli, 1 





SUubi $Btl, S$ti,1 
] LOOP 








bne $t1， $0, LOOP 






217.4 [5] <2.7 > 对 于 上 面 MIPS 汇编 语言 的 循环 ,假定 寄存 器 $tl 被 初始 化 为 10，$s2 的 初始 值 为 0， 
求 $s2 的 最 终 值 。 

2.17.5 [5] <2.7> 对 于 上 面 的 每 个 循环 ， 求 等 价 的 C 过 程 。( 假 定 寄存 器 $s1，$s2，$ti 和 $t2 依次 代 
表 整 数 和 A，B，i 和 temp。) ， 

2 17.6 上 5j <2.7> 对 于 上 面 的 MIPS 汇编 写 的 循环 ， 假 定 寄存 器 8t1 的 初始 值 为 N。 求 一 共 执行 了 多 少 条 
MIPS 指令 。 


习题 2. 18 
对 于 以 下 的 问题 ， 表 中 是 C 代码 。 请 把 这 些 C 代码 转变 成 MIPS 汇编 代码 。 












while (a<10)1 
p[alj =b 十 已 
a+=1; 





for(i=0; i<10; i++) 
a +=b; 






2.18.1 [5] <2.7> 求 上 表 中 的 C 代码 的 控制 流程 图 ? 
2 了 .2 [5] <2.7 > 将 上 表 中 的 C 代码 转换 成 MIPS 汇编 代码 ， 要 求 使 用 最 少数 量 的 指令 。 假设 a,，b,， i 和 
j 的 值 依次 在 寄存 器 $s0 ，$sl ，S$t0 和 $tl 中 ， 并 且 假 设 数组 D 的 基地 址 在 $s2 中 。 
2. 18.3 [5] <2.7 > 请 问 实现 C 代码 的 功能 需要 多 少 条 MIPS 指令 ”如 果 变 量 a 和 b 依次 被 初始 化 为 10 和 
1， 数 组 D 的 所 有 元 素 初始 化 为 0， 求 完成 循环 一 共 需 要 执行 多 少 条 MIPS 指令 ? 
对 于 以 下 问题 ， 表 中 是 MIPS 汇编 代码 段 。 评 估 每 个 代码 段 ， 并 熟悉 不 同 的 MIPS 分 支 指令 。 
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aadi $t1, $0, 400 


$0, 100 LOOP: 1w $s1, 0($s0) 

0 ($s0) add $s2, $s2, $sl 
$s2, $sl lw $81, 4{$s0) 

$s0, 4 add $s2, $s2, S$si 

$t1i, 1 addi $s0, $s0, 8 

$0, LOOP bne $t1， $0, LOOP 





2. 18.4 [5] <2.7> 求 一 共 执 行 多 少 条 MIPS 指令 ? 

2.18.5 [5] <2.7 > 请 将 上 面 的 循环 转化 为 C 程序 ， 假 设 寄存 器 $tl1 ，$t2 依次 存放 C 语言 级 的 整数 i 和 
result，MemArray 的 基地 址 存放 在 $s0 中 

2.18.6 [5] <2.7 > 请 将 上 面 的 MIPS 汇编 代码 重 写 ， 以 减少 执行 的 MIPS 指令 数 。 


习题 2. 19 
对 于 以 下 问题 ， 表 中 是 C 画 数 。 假 设 表 中 第 一 个 函数 叫做 函数 first。 将 这 些 C 代码 过 程 转换 成 MIPS 汇编 。 








int compare (int a, int Db) { 
if (sub (a, b) >=0) 
return1; 






int fib iter(int a, intb， intn)1{ 
if{n == 0) 
return b; 







else 
return 0; 










else 
return fib iter (a +b, a, n -1); 





} 
int sub (int a, int D) { 
return a~b; 






} 


2 19.1 [15] <2.8 > 请 将 上 表 中 的 C 代码 用 MIPS 汇编 实现 。 请 问 执行 这 个 函数 总 共 需 要 多 少 条 MIPS 汇编 指令 ? 
2. 19.2 [5] <2.8 > 函数 经 党 被 编译 器 实现 为 内 联 “in - line” 的 形式 。 内 联 函 数 是 将 函数 体 拷贝 到 程序 空 
间 中 ， 以 消除 函数 调用 的 开销 。 请 用 MIPS 汇编 实现 内 联 版 本 的 C 代码 。 四 问 实现 这 个 函数 总 共 可 
以 减少 多 少 MIPS 汇编 指令 ? (假设 C 的 变量 n 被 初始 化 为 5。) 
2 19.3 [5] <2.8 > 对 于 每 一 次 函数 调用 ， 画 出 调用 后 栈 的 内 容 。 (假定 栈 指针 被 初始 化 为 0x7fffHfc， 寄 存 
器 的 使 用 情况 和 图 2-11 相同 。) 
下 面 的 三 个 问题 是 关于 函数 £ 调用 另外 一 个 函数 func 的 。 函 数 func 的 C 代码 已 经 使 用 图 2-14 
的 MIPS 调用 约定 编译 到 另 一 个 模块 。 函 数 func 的 声明 为 “int func (int a,int b);”， 函 数 f 的 


代码 如 下 : 


.19.4 [10] <2.8> 将 函数 f 翻译 成 MIPS 汇编 ， 同 样 使 用 图 2-14 的 MIPS 调用 约定 。 如 果 需 要 使 用 寄存 器 
$t0 到 $t7 ， 请 从 编号 小 的 寄存 器 开始 使 用 。 

2.19.5 [5] <2.8 > 请 问 这 个 函数 可 以 使 用 尾 调用 优化 吗 ? 如 果 不 能 ， 请 说 明 原 因 。 如 果 能 ， 请 说 明 优化 前 
后 执行 工 的 指令 数 的 差别 。 

2. 19.6 [5] <2.8 > 在 习题 2. 19. 4 中 函数 返回 之 前 ， 我 们 可 以 知道 寄存 器 $t5、$s3、$ra 和 $sp 的 内 
容 吗 ?〈 注 意 ， 我 们 知道 函数 三 的 全 部 ， 但 是 我 们 只 知道 函数 func 的 声明 。) 


习题 2. 20 
以 下 间 题 是 关于 递归 过 程 调用 。 对 于 这 些 问题 ， 表 中 是 求 数 的 阶乘 的 汇编 代码 段 。 然 而 ， 表 中 的 代码 










int f (int a, int b, int ec) 1 


int f (int a, int bp, int ec) 1 
return func (a, b) + func {b, 


return func (func (a, b,c 


] 







c); 








有 错误 ， 请 找 出 这 些 错 误 。 





$sp, $sp, -8 FACT: 
$ra,4 ($sp) 
$a0,o0 {$sp) 
$t0,$a0,1 
$10,$0,L1 
$vO, $0,1 

$sp, $sp,8 


$ra 

$a0,$a0, -1 Ll: 
FACT 

$a0,4 ($sp) 

$rad ($sp) 

$sp, $sp,8 

$vO, $a0,$vo 

$ra 
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$sp, $sp, -8 
$ra,4 ($sp) 
$a0,0 ($sp) 
$t0,$a0,l 
$t0,$0,L1 
$v0, $0,1 
$sp, $sp,8 
$ra 
$t0,$t0，- 1 
FACT 
$a0 ,4 ($sp) 
$ra,0 ($sp) 
$sp,$sp,8 
$v0, $a0, $vo 
$ra 


2.20.1 [5] <2.8 > 上 面 的 MIPS 汇编 程序 计算 给 定 输入 的 阶乘 。 输 入 的 整数 通过 寄存 器 $a0 传人 ， 值 通过 
$v0 返回 。 汇 编 代 码 中 有 些 错误 ， 请 改正 这 些 错误 。 
2.20.2 [10] <2.8 > 对 于 上 面 的 MIPS 阶乘 递归 程序 ， 假 设 输入 为 4。 求 程序 的 非 递 归 形 式 。( 仅 能 使 用 寄 
存 器 $s0 ~ $s7。) 比较 这 个 非 递 归程 序 的 指令 数 和 递归 形式 的 指令 数 。 

2. 20.3 [5] <2.8> 假 设 输入 为 4， 画 出 每 次 函数 调用 后 栈 的 内 容 。 
对 于 以 下 问题 ， 表 中 的 汇编 代码 段 用 来 计算 斐 波 那 契 数 ( Fibonacci number) 。 然 而 ， 表 中 的 代码 有 错 


误 , 请 找 出 这 些 错 误 。 





$sp,$sp, ~12 FIB: 
$ra,0 ($sp) 

$s1,4 ($sp) 

$a0,8 ($sp) 

$t0,$a0,1 

$t0,$0,L1 

$v0, $a0,$o 

EXIT 

$a0,$a0, -1 Ll1: 
FIB 
$sl,$vO,$0 
$a0,$a0,—1 
FIB 
$v0, $v0 ,$si 
$ra,o ($sp) 
$a0 ,8 ($sp) 
$s1,4 ($sp) 
$sp, $sp,12 


$ra 


EXIT: 


addi 


$sp, $sp, -12 
$ra,0 ($sp) 
$s1,4 ($sp) 
$a0 ,8 ($sp) 
$t0, $a0,1 
$t0, $0,L1 
$vO0, $a0, $0 
EXIT 
$a0,$a0, -1 
FIB 
$sl,$vO, $0 
$a0, $a0, -1 
FIB 

$v0 ,$v0 ,$sl 
$ra,D ($sp) 
$a0,8 {$sp) 
$sl,4 {$sp) 
$sp, $sp,12 
$ra 


2.20.4 [5] <2.8 > 上 面 的 MIPS 汇编 程序 计算 给 定 输入 值 的 Fibonacci 数 。 输 入 的 整数 通过 寄存 器 $a0 传 
人 人， 值 通 过 $v0 返回 。 汇 编 代 码 中 有 些 错 误 ， 请 改正 这 些 错 误 。 
2.20.5 [10] <2.8 > 对 于 上 面 的 MIPS 阶乘 递归 程序 ， 假 设 输 入 为 4。 求 程序 的 非 递 归 形 式 。( 仅 能 使 用 寄 
存 器 $s0 ~ $s7。) 比较 这 个 非 递归 程序 的 指令 数 和 递归 形式 的 指令 数 。 
2.20.6 [5] <2.8 > 假设 输 入 为 4， 画 出 每 次 函数 调用 后 栈 的 内 容 。 


习题 2. 21 


假设 栈 和 静态 数据 段 都 是 空 的 并 且 栈 指针 和 全 局 指针 依次 指向 地 址 0x74H fffe 和 0x1000 8000。 调 用 习 
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惯 如 图 2-11 ， 函 数 的 输入 使 用 寄存 器 8$a0 ， 返 回 值 使 用 $v0。 假 定 页 函数 仅 可 以 使 用 保留 寄存 器 。 试 回答 
下 面 问题 。 


| main () int my global =100 
{ .main () 
leaf function (1); { 
int x=10; 
int leaf function (int 工 ) int y=20，; 
int z; 
% int result; z =my function{(x,my global) ; 
result =f1+1; } 
if{f£>5) int my function {int x,int y) 
return result; { 
leaf function (result); returnx ~ y; 


} 





2.21.1 [5] <2.8> 画 出 每 次 消 数 调用 后 栈 和 静态 数据 段 的 内 容 。 
2.21.2 [5] <2.8 > 请 将 上 表 中 的 代码 转换 成 MIPS 代码 。 
2.21.3 [5] <2.8 > 如 果 页 函数 允许 使 用 临时 寄存 器 〈$t0,$tl 等 ), 请 将 上 表 中 的 代码 转换 成 MIPS 代码 。 


$s0, $a0, $a3 f: addi $sp,$sp,8 
$vO,$s0,0xl SW $ra,4 ($sp) 
$vO, $a2, $vO Sw $s0,0 ($sp) 
$vO, $vO, $al move $s0,$a2 

$ra Jal 9 

add $vO,$v0O,s$s0 
lw $ra,4 ($sp) 
lw $s0,0 ($sp) 
addi $sp,$sp, -8 
jr $ra 





.21.4 [10j <2.8 > 这 段 代码 包含 一 个 违反 MIPS 调用 约定 的 错误 。 请 问 这 个 错误 是 什么 ? 如何 修正 ? 

2.21.5 [10] <2.8> 求 与 之 等 价 的 C 代码 ， 假 定 C 函数 的 参数 名 字 是 a,b,c 等 。 

2.21.6 [10] <2.8 > 当 函 数 被 调用 时 ， 寄 存 器 $a0 ，$al ，$a2 和 $a3 的 值 分 别 是 1，10，1000 和 30。 求 
项 数 的 返回 值 。( 如 果 f 调用 另 一 个 函数 g， 假 定 g 的 返回 值 是 $00。) 


习题 2. 22 
以 下 问题 是 关于 ASCI 和 Unicode， 下 表 中 是 字符 组 成 的 串 。 


a A byte 
b. Computer 


2.22.1 [5] <2.9> 将 字符 串 转换 成 十 进 制 的 ASCII 码 。 
2.22.2 [5] <2.9 > 将 字符 串 转 换 成 16 位 的 Unicode (使 用 十 六 进 制 标记 法 和 Basic Latin 字符 集 ) 编码 方式 。 


下 表 是 十 六 进 制 的 ASCI 码 字 符 值 。 
a. 61 64 64 
b. 73 68 69 66 74 


2.22.3 [5] <2.5, 2.9 > 将 上 表 中 的 十 六 进 制 ASCII 码 转 换 成 文本 。 
习题 2. 23 
在 本 练习 中 ， 你 将 编写 一 段 将 字符 串 转化 成 表 中 指定 的 数 格式 的 MIPS 汇编 程序 。 
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a 十 进 制 正 整数 串 
b. 二 进 制 补 码 的 十 六 进 制 整数 


2.23.1 [10] <2.9> 用 MIPS 汇编 语言 写 一 段 代 码 将 上 表 中 所 给 条 件 的 ASCII 码 的 数 串 转换 成 整数 。 在 程序 
中 使 用 寄存 器 $a0 处 理由 数字 0 ~9 组 成 的 非 终结 串 的 地 址 。 程 序 应 该 计算 与 这 个 数字 串 等 值 的 整 
数 ， 并 将 这 个 整数 存放 在 寄存 器 $v0 中 。 如 果 在 字符 串 的 任意 位 置 出 现 非 数字 字符 ， 程 序 停止 并 将 
-1 存 人 $v0。 例 如 ， 如 果 寄 存 器 $a0 指 疝 3 字 节 的 序列 50,。 ，521,。，01。( 非 终结 的 字符 串 “24”)， 
当 程 序 停止 的 时 候 ， 寄 存 器 $v0 中 的 值 应 该 是 241。 


习题 2. 24 
假设 寄存 器 $tl 中 包含 地 址 0x1000 0000 ， 寄 存 器 $t2 中 包含 地 址 0x1000 0010。 


lp $t0,0 ($t1) 本 ip S$t0,0 {$t1) 
sw $t0,0($t2) : sp $t0,0 ($t2) 
2.24.1 [5] <2.9 > 假设 地 址 0x1000 0000 处 的 数据 (十 六 进 制 ) 是 


000 0000 


求 寄 存 器 $t2 中 的 地 址 指向 的 存储 器 中 的 值 是 多 少 ? 假定 $t2 指向 的 寄存 器 位 置 的 初始 值 是 
OxFFFF FFFF, 
2.24.2 [5] <2.9 > 假设 地 址 0x1000 0000 处 的 数据 (十 六 进 制 ) 是 


W000 | Wm | Wm | Wm | 


求 寄存 器 $t2 中 的 地 址 指向 的 存储 器 中 的 值 是 多 少 ? 假定 $t2 指向 的 寄存 器 位 置 的 初始 值 是 
0x0000 0000 。 
2.24.3 [5] <2.9> 假 设 地 址 0xl1000 0000 处 的 数据 (十 六 进 制 ) 是 ; 


mm | i | | wm | 


求 寄存 器 $t2 中 的 地 址 指向 的 存储 器 中 的 值 是 多 少 ? 假定 $t2 指向 的 寄存 器 位 置 的 初始 值 是 
0x5555 5555 。 


习题 2. 25 
在 这 个 练习 中 ， 将 探索 32 位 的 MIPS 常量 。 以 下 问题 将 使 用 下 表 中 的 二 进 制 数据 。 
a. 1]010 1101 0001 0000 0000 0000 0000 0010, 
b. | 1111 1111 1111 1111 1111 1111 1111 1111, 


2.25.1 [10] <2. 10 > 请 编写 能 产生 上 表 中 的 32 位 常量 的 MIPS 代码 ， 并 将 值 存储 到 寄存 器 $t1 中 。 

2.25.2 [5] <2.6, 2.10 > 如 果 当 前 PC 值 是 0x00000000， 可 以 使 用 单独 的 跳 转 指令 跳 转 到 上 表 中 所 指定 的 
PC 地 址 吗 ? 

2.25.3 |5] <2.6, 2.10 > 如 果 当 前 PC 值 是 0x00000600， 可 以 使 用 单独 的 分 支 指令 跳 转 到 上 表 中 所 指定 的 
PC 地 址 吗 ? 

.25.4 15] <2 6，2 10 > 如 果 当 前 PC 值 是 0x00400600， 可 以 使 用 单独 的 分 支 指令 跳 转 到 上 表 中 所 指定 的 
PC 地 址 吗 ? 

2 25.5 [10] <2. 10 > 如果 MIPS 指令 的 立即 数字 段 只 有 8 位 长 ,请 编写 能 产生 上 表 中 所 列 的 32 位 当量 的 
MIPS 代码 ， 并 将 值 存 储 到 寄存 器 $t1 中 。( 不 允许 使 用 1ui 指令 。) 
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对 于 以 下 问题 ， 将 使 用 下 表 中 的 MIPS 汇编 代码 。 
lui $t0， Oxi234 ori $t0, $t0O, 0x5678 
™ ori $t0， $t0, Ox5678 lui $t0, 0x1234 


2.25.6 [5] <2.6,2. 10 > 执行 上 表 中 的 代码 序列 后 , 求 寄存 器 $t0 中 的 值 。 
2.25.7 [5] <2.6，2. 10 > 请 写 出 与 上 表 中 的 汇编 语言 等 价 的 C 代码 。( 假 定 可 以 取 到 32 位 整数 中 的 最 大 常 


量 是 16 位 。) 
习题 2. 26 
本 练习 将 探索 MIPS 中 分 支 和 跳 转 指令 的 范围 。 以 下 问题 使 用 下 表 中 的 十 六 进 制 数据 。 
Aa. Ox00001000 
b. OXFFFCOO000O 


2.26.1 [10] <2.6, 2.10 > 如果 PC 中 的 地 址 是 0x00000000， 请 问 使 用 多 少 条 分 支 指 令 (不 能 使 用 跳 转 指 
令 ) 才能 使 PC 指向 上 表 中 的 地 址 ? 
2.26.2 [10] <2.6, 2. 10 > 如果 PC 中 的 地 址 是 0x00000000， 请 问 需 要 使 用 多 少 条 跳 转 指令 〈 不 能 使 用 寄 
存 器 跳 转 指令 和 分 支 指令 ) 才能 使 PC 指向 上 表 中 的 地 址 ? 
2 26.3 [10] <2.6, 2 10 > 为 了 减少 MIPS 程序 的 大 小 ，MIPS 的 设计 者 已 经 决定 将 I 型 指令 中 立即 数字 段 从 16 位 
变 为 8 位 。 如 果 PC 指向 地 址 0x0000000， 请 问 需 要 多 少 条 分 支 指令 才能 将 PC 设置 为 上 表 中 的 地 址 ? 
以 下 问题 将 用 到 对 MIPS 指令 集体 系 结构 的 修改 。 


a. 8 寄存 器 
b. 10 位 立即 数 / 地 址 字段 


2.26.4 [10] <2.6，2. 10 > 如 果 MIPS 处 理 器 的 指令 集 改 变 ， 那 么 指令 的 格式 也 必须 变化 。 对 于 上 表 中 每 种 
修改 建议 ， 请 问 对 beq 指令 地 址 范围 的 有 什么 影响 ? 假设 指令 还 是 32 位 长 并 且 任何 对 工 型 指令 的 修 
改 只 能 是 增加 或 减少 beq 指令 的 立即 数字 段 。 

2.26.5 [10] <2.6，2. 10 > 如 果 MIPS 处 理 器 的 指令 集 改 变 ， 那 么 指令 的 格式 也 必须 变化 。 对 于 上 表 中 每 种 
修改 建议 ， 请 问 对 于 跳 转 指令 的 地 址 范围 有 什么 影响 ? 假设 指令 还 是 32 位 长 并 且 任 何 对 J 型 指令 
格式 的 修改 只 能 是 影响 跳 转 指令 的 地 址 字段 。 

和 26.6 [10j <2.6，2. 10 > 如 果 MIPS 处 理 器 的 指令 集 改变 ， 那 么 指令 的 格式 也 必须 变化 。 对 于 上 表 中 每 种 
修改 建议 ， 请 问 对 于 寄存 器 跳 转 指令 的 地 址 范围 有 什么 影响 ?假设 指令 还 是 32 位 长 。 


习题 2. 27 
以 下 问题 是 关于 探索 MIPS 指令 集体 系 结构 中 不 同 的 寻 址 模式 的 。 这 些 不 同 的 寻 址 模式 在 下 表 中 列 出 。 
a 寄存 器 寻 址 
b. PC 相对 寻 址 


227.1 [5] <2. 10 > 上 表 中 是 MIPS 指令 集 的 不 同 寻 址 模式 。 请 为 不 同 的 MIPS 寻 址 模式 给 出 示例 性 的 MIPS 
指令 。 
2 27.2 [5] <2. 10> 对 于 2.27. 1 题 中 的 指令 ， 请 问 这 些 指令 的 指令 格式 是 什么 ? 
227.3 [5] <2. 10> 请 列 出 每 种 MIPS 寻 址 模式 的 优 缺 点 ， 并 写 出 展示 这 些 优 缺 点 的 MIPS 代码 。 
以 下 问题 将 使 用 下 表 中 的 MIPS 汇编 代码 来 探索 MIPS I 型 指令 中 立即 数字 段 的 权衡 。 


0x00000000 lui $s0, 100 
0x00000004 OF $s0, $s0, 40 


aA. 
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( 续 ) 


Ox00000100 addi $to, $0, Ox0000 
Ox0Q0000104 lw $t1， Ox4000 ($+0) 


2.27.4 [15] <2. 10 > 对 于 上 面 的 MIPS 语句 ， 请 用 十 六 进 制 数 展现 每 条 指令 的 位 级 表示 。 

2.27.5 [10j <2. 10 > 通过 减少 1 型 和 J 型 指 令 的 立即 数字 段 的 大 小 ， 我 们 可 以 节省 表示 指令 的 位 数 。 如 果 
型 指令 的 立即 数字 段 是 8 位 ，] 型 指令 的 立即 数字 段 是 18 位 ， 请 重 写 上 面 的 MIPS 代码 来 反映 这 
些 变化 。 《避免 使 用 lui 指令 。) 

2.27.6 [5] <2. 10 > 请 问 与 上 表 中 的 代码 相 比 ，2. 27. 5 中 多 使 用 了 多 少 条 指令 ? 


习题 2. 28 
下 表 中 的 MIPS 汇编 代码 是 加 锁 时 使 用 的 。 
try: MOV R3 ,R4 


MOV R6 ,R7 
LL R2,0(R2) 


LL R5,0(R1) 
SC R3,0(R1) 
SC R6,0(R1) 


BEQZzZ R33,try 
MOV R4 ,R2 
MOV 及 7 ,RS 
2.28.1 [5] <2.11 > 对 于 条 件 存 每 一 次 测试 和 失败 ， 需 要 执行 多 少 条 指令 ? 
2.28.2 [5] <2.11 > 对 于 上 面 的 加 锁 取 或 条 件 存 ， 请 解释 为 什么 这 段 代码 会 失败 。 
2.28.3 [15] <2. 11 > 重 写 上 面 的 代码 使 其 可 以 正确 操作 ， 保 证 避免 任意 的 音 争 条 件 。 
下 表 中 的 每 个 条 目 都 是 代码 和 不 同 寄 存 器 中 的 内 容 。 标 记 “ ($s1i)” 表 示 寄 存 器 $s1 指向 的 存储 器 位 
置 中 的 内 容 。 每 个 表 中 的 汇编 代码 是 被 共享 内 存 空间 的 并 行 处 理 器 在 相应 周期 执行 的 。 


A. 
2 
EE i 
Uso8e) | listloga |1| | | | | 
ss008sD | ?| | | | 
sso)y |3| | | | 
b. 
处 理 器 1 处 理 器 2 
a di er ei 
wi 
czy:addst0's0ss | 1 | | | | | | 
` try:add $t0,$0,$s4 11 $t1,0 ($s1) 2|1 [| 1 


11 $t1,0 ($s1) 
sc $t0,0 ($s1) 
beqz $t0, try sc $t0,0 ($s1) 
add $s4,$0,$t1 beqgz $t0,try 


| 


Ld 
™ 


| 
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2.28.4 [5] <2. 11 > 对 于 每 个 给 定 的 周期 填写 表 中 寄存 带 的 值 。 


习题 2. 29 
本 练习 中 前 三 个 问题 是 关于 下 面 这 个 形式 的 临界 区 的 。 
lock (Lk); 
operation 
unlock (lk),; 
“operation” 使 用 局 部 变量 非 共 享 ) x， 更 新 共享 变量 shvar， 代 码 如 下 ; 
Operation 
shvar = shvar + xX; 
b. shvar=min (shvar, x)} 


2.29.1 [10] <2.11 > 请 为 这 个 临界 区 编写 MIPS 汇编 代码 。 假 设 变量 1k 的 地 址 在 $a0 中 ， 变 量 shvar 的 
地 址 在 $al 中 ， 变 量 x 的 值 在 $a2 中 。 你 所 编写 的 这 个 重要 部 分 的 代码 不 能 包含 任何 函数 调用 ， 例 
如 ， 你 可 能 使 用 包含 lock () , unlock () ,max() 和 min () 操作 的 MIPS 指令 。 请 使 用 11/sc 指令 
来 实现 lock () 操作 ，unlock () 操作 可 以 简单 地 使 用 原始 的 存 指令 来 实现 。 

2 29.2 [10] <2.11 > 重新 解决 2.29. 1 中 的 问题 ， 不 过 这 次 使 用 11/sc 直接 完成 shvar 变量 的 原子 更 新 操 
作 ， 不 使 用 lock () 和 unlock () 。 注 意 这 个 问题 中 没有 变量 ik。 

2.29.3 [10] <2.11 > 比较 2.29.1 和 2.29.2 的 代码 的 最 好 情况 的 性 能 ， 假 设 每 条 指令 需要 一 个 周期 执行 。 
注意 ; 最 好 情况 意味 着 11/sc 总 是 执行 成 功 ; 当 我 们 要 lock( ) 的 时 候 锁 都 是 被 解 开 的 ; 如 果 遇 到 
分 文 指令 ， 将 执行 完成 操作 所 用 指令 最 少 的 路 径 。 

2.29.4 [10] <2.11 > 以 2.29.2 中 的 代码 为 例 ， 解释 当 两 个 处 理 器 同时 执行 这 段 临 界 区 域 时 ,将 发 生 什么 
情况 ? 假设 每 个 处 理 器 执行 一 条 指令 正好 需要 一 个 周期 。 

2.29.5 [10] <2 11 > 请 解释 为 什么 2. 29. 2 中 寄存 器 $al 中 是 变量 shvar 的 地 址 ， 而 不 是 它 的 值 。 为 什么 
寄存 器 $a2 中 是 变量 x 的 值 而 不 是 地 址 ? 

2.29.6 [10] <2. 11 > 如 果 我 们 要 在 间 一 个 临界 区 域 中 对 2 个 共享 变量 (例如 ，shvarl 和 shvar2) 原子 
性 地 执行 相同 的 操作 ， 我 们 可 以 简单 地 使 用 2. 29. 1 题 中 的 方法 来 完成 这 个 功能 (简单 地 将 两 个 更 
新 放 在 lock 操作 和 相应 的 unlock 操作 之 间 ) 。 请 解释 为 什么 我 们 不 能 使 用 2. 29. 2 题 中 的 方法 ， 例 
如 ， 为 什么 不 能 使 用 11/sc 来 访问 两 个 共享 变量 ， 通 过 这 种 方式 来 保证 两 个 更 新 像 一 个 原子 操作 
一 样 执 行 。 


习题 2. 30 


汇编 伪 指 令 并 不 是 MIPS 指令 集 的 一 部 分 ， 但 是 经 常 在 MIPS 程序 中 出 现 。 下 表 中 包含 一些 MIPS 伪 指 
令 ， 编 译 后 将 翻译 成 其 他 的 MIPS 汇编 指令 。 


a move St1I， $t2 
hb， beg $t1， small, LOOP 


2.30.1 [5] <2. 12 > 对 于 上 表 中 的 每 一 条 伪 指 令 ， 请 写 出 完成 相同 功能 的 最 短 的 实际 MIPS 指令 序列 。( 某 
些 算 况 下 你 可 能 要 使 用 临时 寄存 器 。 表 中 1arge 表示 这 个 数字 需要 32 位 来 表示 ，small 表示 这 个 
数字 正好 适合 16 位 表示 。) 

下 表 中 包含 一 些 MIPS 伪 指 令 ， 编 译 后 将 翻译 成 其 他 的 MIPS 汇编 指令 。 


la $s0, v 
b. blt $a0, $v0， Loop 
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2.30.2 [5] <2. 12 > 上 表 中 的 指令 在 链接 阶段 需要 编辑 吗 ? 为 什么 ? 


习题 2. 31 
下 表 中 包含 两 个 不 同 过 程 的 链接 级 的 细节 。 本 练习 中 你 将 代替 链接 器 来 完成 工作 。 
a. 过 程 A 过 程 B 
| | 
oe CE a 
bao | 
| | 
0 [x | 0 | (Y) 
数据 段 数据 
Es | 


中 
注 
让 
心 










地 址 指令 依 炉 
IT 
| 
nen = oh 
-0 

b. 过 程 A 过 程 B 

一 [本 机 
a mm | 
ho | 
一 | 
一 | 一 

本 三 区 Em 到 
了 一 
os os 一 
一 一 上 一 


.31.1 [5] <2.12 > 链接 上 面 的 目标 文件 组 成 可 执行 文件 头 。 假 设 过 程 A 的 文本 大 小 是 0x140， 数 据 大 小 
是 0x40。 过 程 B 的 文本 大 小 是 0x300， 数 据 大 小 是 0x50。 并 假设 存储 器 的 分 配 策略 如 图 2-13 所 示 。 

2 312 [5] <2. 12 > 如 果 存 在 的 话 ， 请 说 出 可 执行 文件 大 小 有 何 限制 。 

2 313 [5] <2.12 > 请 写 出 你 对 分 支 和 跳 转 指令 限制 的 理解 。 为 什么 汇编 器 在 目标 文件 中 直接 实现 分 支 和 
跳 转 指令 会 有 问题 ? 


习题 2. 32 
本 练习 的 前 三 个 问题 中 ， 函 数 swap 使 用 C 语言 定义 如 下 ， 而 不 是 图 2-24 中 的 代码 。 
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void swap (nt * p) { 







void swap lint vi]l, intk, intj) { int temp; 
int temp; temp=* p? 
temp=v[ kj]; * p=* (p+1); 
v[x] =v[j]; * (p+1)=* p; 
v[j|] =temp; } 





2.32.1 [10] <2. 13 > 请 将 这 个 函数 转换 成 MIPS 汇编 代码 。 
2. 32.2 [5] <2. 13 > sort 函数 需要 进行 什么 修改 ? 
2. 32.3 [5] <2. 13 > 如 果 我 们 对 8 位 的 字 节 排序 ， 而 不 是 32 位 字 ，2. 32. 1 题 中 的 swap 的 MIPS 代码 需要 


做 什么 修改 ? 
本 练习 剩 下 的 3 个 问题 中 ， 我 们 假设 对 图 2-27 中 的 sort 函数 进行 以 下 修改 : 
a. 使 用 s 寄存 器 替换 t 寄存 器 。 
b. 使 用 bltz 指令 替换 


2.32.4 [5j] <2. 13 > 请 问 这 些 修 改 对 图 2-27 中 保存 和 恢复 寄存 器 的 代码 有 影响 吗 。 

2.32.5 [10] <2. 13 > 当 对 一 个 已 经 排 好 序 的 含有 10 个 元 素 的 数组 进行 排序 的 时 候 ， 这 些 修 改 对 执行 指令 
的 数量 有 什么 影响 ? 

2.32.6 [10] <2. 13 > 当 对 一 个 已 经 按 降序 (和 sort () 苯 数 的 方向 相反 )〉 排 好 序 的 含有 10 个 元 素 的 数组 
进行 排序 的 时 候 ， 这 些 修改 对 执行 指令 的 数量 有 什么 影响 ? 


习题 2. 33 
本 练习 中 的 问题 涉及 下 面 的 函数 ， 其 代码 是 基于 数组 的 : 











Int find (int a intn int 式 . ， ， . 
( [], " ) 1 int count (int a[ |], intn, int x) { 






int i; 
for(i=0;i! =n;i++) 

if (al i] = =x) 
return i; 






int res=0; 






int 工 * 
for{i=0;i ! =n;i++) 
if(a[i] = =x) 
res=res+l:; 







return-1: 





} 






return res:; 






} 


2.33.1 [10] <2. 14 > 请 将 函数 转换 成 MIPS 汇编 代码 。 

2.33.2 [10] <2. 14 > 请 将 函数 转换 成 基于 指针 的 代码 (用 C 语言 ) 。 

2.33.3 [10]<2. 14 > 请 将 2. 33. 2 题 中 基于 指针 的 C 代码 转换 成 MIPS 汇编 代码 。 

2.33.4 [5] <2. 14 > 请 将 2. 33. 1 题 中 基于 数组 的 代码 和 2. 33. 3 题 中 基于 指针 的 代码 在 最 坏 情况 下 ， 每 次 
非 最 后 一 次 循环 迭代 (nonlast loop iteration) 的 执行 指令 的 数量 做 对 比 。 注 意 ， 最 坏 的 情况 发 生 在 
代码 执行 时 条 件 分 支 都 选择 最 长 路 径 执 行 时 ， 例如， 如果 有 一 个 让 语句 ， 那 么 条 件 检查 的 结果 是 执 
行 较 多 指令 的 路 径 。 然 而 ， 如 果 条 件 检 查 的 结果 将 导致 循环 退出 的 话 ， 那么 我 们 假设 执行 的 路 径 是 
使 我 们 继续 执行 循环 的 路 径 。 

2 33.5 [5] <2. 14 > 请 比较 2. 33. 1 题 中 基于 数组 的 代码 和 2. 33. 3 题 中 基于 指针 的 代码 所 需 临时 寄存 器 (t- 
registers) 的 数量 。 

.33.6 [5] <2. 14 > 如 果 寄 存 器 $t0 ~ $t7 和 $a0 ~ $a3 在 MIPS 调用 规范 中 都 是 被 调用 者 保存 的 ， 就 像 
$s0 ~ $s7 ， 请 问 2. 33. 4 题 的 答案 有 什么 变化 ? 
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习题 2. 34 
下 表 包 含 ARM 汇编 语言 代码 。 以 下 问题 是 关于 把 ARM 汇编 语言 代码 翻译 成 MIPS。 
MOV r0, 拉 0 ;init loop counter to 10 
LOOP: ADD ro0, rl ;add rl to IO 
SUBS r0, 1 :decrement counter 
BNE LOOP 7;if 2%=0 repeat loop 
b. ROR rl, r2, 由 ;rl=r23o concatenated with z231.4 


2.34.1 [5] <2. 16 > 将 上 表 中 的 ARM 汇编 语言 代码 翻译 成 MIPS 汇编 语言 代码 。 假 设 ARM 寄存 器 *0 、r1 
和 r2 依次 保存 与 MIPS 寄存 器 $s0、$sl 和 $s2 的 相同 的 值 。 如 果 需 要 可 以 使 用 MIPS 临时 寄存 器 
($t0 等 ) 。. 
2.34.2 [5j <2. 16 > 对 于 上 表 中 的 ARM 汇编 语言 指令 ， 请 用 位 字段 表示 这 些 ARM 指令 。 
下 表 中 包含 MIPS 汇编 语言 代码 。 以 下 问题 是 关于 把 MIPS 汇编 语言 代码 翻译 成 ARM。 


slt $t0, $s0, $sl 


2 blt $t0， $0, FARAWAY 


b. add $s0, $si, $s2 


2.34.3 [5] <2.16 > 请 为 上 表 中 的 ARM 汇编 语言 代码 找到 相应 的 MIPS 汇编 语言 代码 序列 。 
2.34.4 |5] <2. 16 > 请 写 出 ARM 汇编 语言 代码 的 位 字段 表示 。 


习题 2. 35 
ARM 处 理 器 提供 一 些 MIPS 不 支持 的 寻 址 模式 。 以 下 问题 是 关于 这 些 新 的 寻 址 模式 。 


a. LDR r0, [ri1] ;50 = memory[ rl ] 


LDMIA r0O, {rl,r2,r4) ;rl =memory[ r0 | ,r2 =memory[ r0 +4] 


bh. 
;r4 =memory[ r0 +8] 


2.35.1 [5] <2. 16 > 请 说 明 上 表 中 的 ARM 汇编 代码 的 寻 址 模式 的 类 型 是 什么 。 
2.35.2 【5] <2.16 > 请 为 上 表 中 的 ARM 汇编 指令 写 出 完成 同样 数据 传输 功能 的 MIPS 汇编 指令 序列 。 
以 下 的 问题 ， 你 将 比较 用 ARM 和 MIPS 指令 集 编写 的 代码 。 下 表 中 的 代码 用 ARM 指令 集中 的 指令 编写 。 


LDR r0, =Tablel ;load base address of table 

LDR rl, 在 00 ;initialize loop counter 

EOR r2, r2, r2 ;Clear r2 
a ADDLP: LDR rd， [ ro] ;iget first addition operand 

ADD r2, rr2, rd4 iadqd to r2 

ADD ro， r0, 机 ;increment to next table element 

SUBS rl， ri, 相 ;decrement loop counter 

BNE ADDLP ?if loop counter ! =0,go to ADDLP 
b. ROR rl, r2, 析 ?rl=r2;3,0Concatenated with r2 31:4 


.35.3 [10] <2. 16 > 对 于 上 面 的 ARM 汇编 代码 ， 请 写 出 功能 相等 的 MIPS 汇编 代码 例 程 。 

2 35.4 [5] <2, 16 > 请 问 这 段 代码 一 共 要 执行 多 少 条 ARM 汇编 指令 ? 一 共 要 执行 多 少 条 MIPS 汇编 指令 ? 

2.35.5 [5] <2.16> 假设 MIPS 汇编 例 程 的 平均 CPI 与 ARM 汇编 例 程 的 平均 CPI 相等 ， 并 且 MIPS 处 理 器 的 
操作 频率 是 ARM 处 理 器 的 1.5 倍 。 请 问 ARM 处 理 器 比 MIPS 处 理 器 快 多 少 ? 
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习题 2. 36 
ARM 处 理 器 支持 立即 数 常 数 的 方法 很 有 趣 ， 本 练习 将 研究 这 些 区 别 。 下 表 中 是 ARM 指令 。 
ADD, Tr3， ITr2， ri, LSsL 要 :rr3=r2+ (rl< <3) 


b. ADD, rr3, rr2, rl, ROR #3 ;r3=r2+ (rl,rotated right 3 bits) 


2.36.1 [5] <2. 16 > 请 为 上 表 中 的 ARM 汇编 代码 编写 等 价 的 MIPS 代码 。 
2.36.2 [5] <2. 16 > 如 果 寄 存 器 Rl 包含 常量 值 8， 请 重新 编写 MIPS 代码 使 得 所 需 的 MIPS 汇编 指令 最 少 。 
2.36.3 [5] <2. 16 > 如 果 害 存 器 R1 包含 常量 值 0x06000000， 请 重新 编写 MIPS 代码 使 得 所 需 的 MIPS 汇编 


指令 最 少 。 
下 表 中 是 MIPS 指令 。 
a. addi r3, r2, 0xl 
b. addi rr3, r2, 0x8000 


2.36.4 [5] <2.16 > 请 为 上 表 中 的 MIPS 汇编 代码 编写 等 价 的 ARM 汇编 代码 。 


习题 2. 37 
本 练习 是 探索 MIPS 和 x86 指令 集 之 间 的 区 别 的 。 下 表 中 包含 x86 汇编 代码 。 


a. mov edx, [esi+4 * ebx] 
STRRT : mov ax, 00101100b 
mov cx, 00000011ib 
b. mov bx, 11110000b 
and ax, bx 
Or ax, CX 


和 37.1 [10j <2.17 > 请 为 给 定 的 例 程 编写 伪 代 码 。 
2.37.2 [10] <2.17 > 写 出 与 给 定 例 程 功能 相等 的 MIPS 指令 序列 。 
下 表 中 包含 x86 汇编 指令 。 


mov edx, [esi+4 * ebx] 


b. aaQaQ eax, Dx12345678 


2.37.3 [5] <2.17 > 对 于 每 一 条 汇编 指令 ， 请 写 出 表示 这 个 指令 的 每 个 位 字段 的 大 小 。 将 标 等 MY_FUNC- 
TION 当做 32 位 的 常量 。 
2.37.4 [10j」 <2. 17 > 请 编写 等 价 的 MIPS 汇编 语句。 


习题 2. 38 


x86 指令 集 包 含 REP 前 级 ， 这 个 前 缀 可 以 使 指令 重复 执行 给 定 的 次 数 或 一 直 执 行 直到 条 件 得 到 满足 。 
本 练习 的 前 三 个 问题 涉及 以 下 x86 指令 。 


prem 


Repeat until] ECX is zero: 
Mem8[ EDI |] =Mem8[ ESI] ,EDI =EDI +1,ESI =ESI +1,ECX =ECX -1 


b. REP MOVSD Repeat until ECX is zero; 
Mem32| EDI ] =Mem32[ ESI] ,EDI = EDT +1,ESI =ESI +1,ECX =ECX -1 


2.38.1 [5] <2.17 > 请问 在 典型 情况 下 ， 这 条 指令 用 在 什么 地 方 ? 


a. REP MOVSB 
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2.38.2 [5] <2. 17 > 请 编写 与 表 中 指令 完成 相同 操作 的 MIPS 代码 。 假 设 $a0、$al、$a2 和 $a3 分 别 与 
ECX、EDI、ESI 和 EAX 对 应 。 

2. 38.3 [5] <2.17 > 假设 x86 指令 读 、 写 存储 器 各 需要 一 个 周期 ， 寄 存 器 更 新 需要 一 个 周期 ，MIPS 每 执行 
一 条 指令 也 需要 一 个 周期 。 请 问 当 ECX 非常 大 的 时 候 ， 使 用 x86 指令 来 代替 功能 相等 的 MIPS 代 
码 ， 程 序 执行 速度 能 加 快 多 少 ? 假设 x86 和 MIPS 的 时 钟 周期 相等 。 

本 练习 剩 下 的 三 个 问题 涉及 下 面 的 函数 ， 我 们 以 C 和 x86 汇编 形式 给 出 。 对 于 x86 指令 ， 我 们 还 给 出 
了 在 x86 编程 指令 格式 下 该 指令 的 长 度 和 对 指令 的 解释 (这 条 指令 是 做 什么 的 ) 。 注 意 : 与 MIPS 相 比 x86 
体系 结构 的 寄存 器 非常 少 ， 所 以 x86 的 调用 规范 将 所 有 的 参数 都 压 栈 。x86 函数 的 返回 值 通过 寄存 器 EAX 
传递 给 调用 者 。 

6 code 


f:push % ebp :lB,Ppush $ ebp to stack 


int f(int a,int b) { 
return a+b; 
} 


void f(int * a,int * bb) 1 
*a=*a+t* pb; 
* b=* a 





mh 


mov % esp,% ebp 

TIOV DxCc (各 ebp},$ eax 
add 0x8 (和 ebp),$ eax 
POP 和 ebp 

ret 


:push % ebp 


mov % esp,% ebp 
mov 8 (% ebp),%$% eax 
mov 12 ($ ebp) ,% ecx 
mov (名 eax),$ edx 
add (% ecx)} ,$s edx 
TIOV $$ edx, ($$ eax) 
moOV $$ edx, (% ecx) 
PoPp $ ebp 

ret 


;2B,move $$ esp to % epp 
;3B, 10ad 2™ arg to § eax 
;3B,add 1 arg to % eax 
;1B,restore $ ebp 
;1B,return 


;1B,push % ebp to stack 
;2B,move % esp to $% ebp 
:3B, load 1s arg into ®% eax 
;3B, lo0ad 2™ arg into $ ecx 
;2B,1load * a into $$ edx 
i2B,add * b to % edx 
;2B,store 省 edx to* a 
;2B,store 各 edx to x 卫 
:1B,restore $ ebp 
;1B,return 


2 38. 4 [5] <2.17 > 请 将 该 函数 翻译 成 MIPS 汇编 代码 ， 并 比较 x86 代码 和 MIPS 代码 的 大 小 ( 占用 指令 存 
储 器 的 字 节 数 ) 。 

2 38-S [5] <2. 17 > 如 果 处 理 器 每 周期 可 以 执行 2 条 指令 ， 那 么 每 周期 内 处 理 器 应 至 少 有 能 力 读 2 条 连续 
的 指令 。 请 解释 在 MIPS 中 和 在 x86 中 分 别 如 何 实现 上 述 要 求 ? 

2.38.6 |5] <2.17 > 如 果 MIPS 指令 执行 需要 一 个 周期 ，x86 指令 执行 需要 一 个 周期 再 加 上 每 个 要 执行 的 读 
或 号 操作 的 一 个 周期 ， 请 间 使 用 x86 代替 MIPS 所 获得 的 加 速 比 是 多 少 ? 假定 x86 和 MIPS 的 时 钟 周 
期 相同 ， 函 数 执行 时 选择 尽 可 能 最 短 的 路 径 执 行 〈 例 如 ， 每 个 循环 都 是 立即 退出 的 并 且 每 个 让 语句 
都 选择 能 引 向 函数 返回 的 方向 来 执行 ) 。 注 意 x86 中 的 ret 指令 从 栈 中 读 返 回 地 址 。 


习题 2. 39 
下 表 中 给 出 不 同 指令 类 型 的 CPI 值 。 
一 本 区 
一 0 . 
b | 


10 4 


.39.1 [5] <2.18 > 假定 执行 指定 程序 中 有 下 面 给 定 的 指令 : 


指令 ( 百 万 条 ) 
算术 500 
存 / 取 300 
分 支 100 


如 果 操 作 频 率 是 5 GHz， 求 处 理 器 的 执行 时 间 。 
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2. 39.2 [5] <2. 18 > 假设 向 指令 集中 添加 了 新 的 、 功 能 更 强 的 算术 指令 。 通 过 使 用 这 些 功能 更 强大 的 算术 
指令 平均 可 以 减少 程序 执行 所 需要 的 25% 的 算术 指令 ， 而 时 钟 周期 的 开销 增长 了 10% 。 请 问 这 是 
好 的 设计 选择 吗 ? 为 什么 ? 
2. 39. 3 [5] <2.18 > 假设 我 们 找到 一 种 可 以 使 算术 指令 性 能 达到 原来 两 倍 的 方法 。 请 问 我 们 机 器 的 整体 加 速 是 
多 少 ? 假设 我 们 找到 一 种 可 以 使 算术 指令 性 能 达到 原来 十 倍 的 方法 ， 那么 机 器 的 性 能 整体 加 速 又 是 多 少 ? 
下 表 是 指令 执行 中 不 同类 型 指令 的 比例 。 : 


2.39.4 [51 <2.18 > 对 于 上 表 中 给 出 的 指令 混合 比例 ， 假 设 算术 指令 执行 需要 2 周期 ， 存 / 取 指 令 需要 6 周 
期 分支 指令 需要 3 周期 ， 求 平均 CPI。 

2.39.5 [5] <2.18 > 为 了 提高 25% 的 性 能 ， 在 存 / 取 指令 和 分 支 指令 执行 时 间 不 变 的 情况 下 ,平均 情况 下 
算术 指令 执行 要 多 少 个 周期 ? 

2.39.6 [5] <2.18 > 为 了 提高 50% 的 性 能 ， 在 存 / 取 指令 和 分 支 指令 执行 时 间 不 变 的 情况 下 ,平均 情况 下 
算术 指令 执行 要 多 少 个 周期 ? 


习题 2. 40 


本 练习 的 前 三 个 问题 与 下 面 MIPS 汇编 语言 给 出 的 函数 有 关 。 注 意 ， 编 写 这 个 函数 的 程序 员 落 入 了 如 
下 陷阱 : 将 MIPS 当做 一 个 字 编 址 的 机 器 。 而 事实 上 MIPS 按 字 节 编制 。 






;int f (int a[l], 
王 : TOVe $vO ,$aero ; Iet=0 


int n, int x).; 











move $t0,$zero ; i=0 
L: add $t1, $t0, $a0 ; &(alil]) 
2 lw $t1,0 ($t1) ; readali] 
bne $t1i,$a2,s ; if(la[li]= =x) 
adqi $vO, $vo,1 ITet 十 十 ; 
S : addi $t0O,$t0,1 ? 工 十 十 
bne $+0,$al,L ;: repeat ifi! =n 


$ra ; xeturn ret 


;void f (int * a,int * b,int n):; 





:ff: move $I, $a0 :P=a 
move $t1l, S$al ;p=b 
adc $t2, $a2,$a0 ;:& (aln]) 
L: lw $t3, 0($t0) ;read * p 
b lw Bt4, OBt1) ;read * cr 
add BE, gt3,$t4 2* p+i* 富 
Sw Bi, S$t0) i* p=*E+* qa 


| adr 了 于 $tO， $t0 ,1 :p=p+1 


sddi $t1， $tl,1 d=q+1 
Ti $tO, $t2,L repeat ifp! =g&(aln|) 
jr 人 ra ;return 
| em 
注意 ，MIPS 汇编 语言 中 字符 “;” 表 示 这 行 剩余 的 部 分 都 是 注释 。 
> 49.1 [5] <2 18 > MIPS 体系 结构 访问 (lw 和 sw) 字 大 小 时 ， 需 要 存储 器 字 对 齐 ， 例 如 地 址 的 最 保 2 全 
有 合 位 必须 都 是 0。 如 果 地 址 不 是 字 对 齐 的 ， 处 理 器 将 冒 “bus eror” 蜡 常 。 请 说 明 这 种 对 章 
行 这 个 函数 有 什么 影响 。 
“42 [5] <2.18 > 假设 “a” 是 一 个 指向 数组 首 地 址 的 指针 ， 这 个 数组 中 的 元 素 都 是 _ 字 节 大 小 ， 如 果 用 < 
中 (load byte》 和 sb (store byte) 依次 替换 lw 和 sw， 请 问 这 个 函数 正确 吗 ? 注意 ; 由 从 存储 器 读 由 和“ 
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一 字 节 ， 进 行 符号 扩展 ， 然 后 将 数据 放 人 目的 寄存 髓 ， 而 sb 将 寄存 器 最 低 8 个 有 效 位 存 到 存储 器 。 
2. 40. 3 [5]<2.18 > 修改 代码 ， 使 之 对 于 32 位 的 整数 可 以 正确 执行 。 
本 练习 中 剩 下 3 个 问题 是 关于 为 数组 分 配 存 储 器 ， 将 一 些 数据 填 和 人 数组， 调用 图 2-27 中 的 sort 函数 ， 


然后 打印 数组 。 程 序 的 main 肾 数 如 下 表 (用 C 和 MIPS 给 出 ) : 


main code in C 


main{} { 
int * vy} 
int n=5; 
v=my alloc (5); 
my init{(v,n); 


sort {v,n}); 


函数 my_alloc 的 定义 如 下 (用 C 和 MIPS 给 出 ) 。 注 意 ， 编 写 这 个 函数 的 程序 员 落 人 如 下 陷阱; 


MIPS version of the main code 


main: 

1i $s0, 5 
move $a0, $s0 
jal my alloc 
move $s1， $v0 
move $adQ, $sl 
move $al, $s0 
jal my init 
move $a0, $s] 
move $al, $s0 
了 al SOrt 


数 定义 的 范围 之 外 使 用 了 指向 函数 内 定义 的 自动 变量 的 指针 arr。 


my_ alloc inC 


int * my alloc (int n} { 
int arr[n]; 
return arrr 


my alloc: 
addu 
SW 
move 
sll 
sub 
move 
move 
lw 
addiu 
jr 


晴 数 my_init 的 定义 如 下 (MIPS 代码 ) : 


my init: 
move $t0， $zero 
move $t1， $a0 
问 L: sw $zero, 0 ($t1) 
addiu $tl, S$ti, 4 
addiu $tO, $t0, 1 
bne $t0， $al, LL 
jr $ra 
my _ init: 
move $t0, $zero 
move $t1l, $ad 
L: sub $t2, $al, $t0 
b Sw $t2, 0($t1) 
addinu $t1， $tli, 4 
addiu St0， $t0, 1 
pne $t0, $al, LL 


jr $ra 


MIPS code for my_ alloc 


$sp,$sp, 一 4 ;Push 
$fp,0 ($sp) ;$fp to stack 
$fp, $sp ;Save $sp in $fp 
$t0,$a0, 2 :We need 4* n bytes 
$sp, $sp, $tO i Make room for arr 
$v0， $sp ;Retuen address of arr 
$sp, $fp ;Return $sp from $fp 
$fp, 0 (sp) ;Pop $fp 
$sp, $sp,4 ;from stack 
ra 

; i=0 

; v[i]=0 

; i=i+1 

; until i==n 


; a[lij=n-i 


; i=i+]l 
; Untili== 


在 函 
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2.40.4 [5] <2. 18 > 当 main 代码 执行 后 ， 请 问 在 “jal sort” 指 令 执行 前 ， 数 组 v 中 的 数据 〈 所 有 5 个 


元 素 的 值 ) 是 多 少 ? 


2.40.5 [15] <2. 18，2. 13 > 当 执 行 到 sort 函数 进入 最 外 层 循环 执行 第 一 次 迭代 前 ， 请 问 此 时 数组 v 中 的 


数据 是 多 少 ? 假设 当 main 代码 开始 执行 时 (在 指令 “1i $s0,5” 执 行 前 ) ， 寄 存 器 $sp、$s0、 
$sl1、$s2 和 $s3 中 的 值 分 别 是 0x1000、20、40、7 和 1。 


2.40.6 [10] <2.18，2. 13 > 在 指令 “jal sort” 执 行 后 ， 返 回 main 充 数 时 ， 由 v 指 疝 的 含有 5 个 元 素 的 


数组 中 的 数据 是 什么 ? 


小 测验 答案 


2.2 节 
2.3 节 
2.4 节 
2.5 节 
2.6 节 


2.7 节 
2.8 节 
2.9 节 
2. 10 节 
2. 11 节 
2. 12 节 


CBA 
B 
B 
D 
AB 将 “逻辑 与 ”和 全 “1” 的 掩 码 一 起 使 用 会 导致 除了 想 要 的 区 域 之 外 ， 都 变 成 0。 正确 的 左 移 
位 操作 将 左边 的 位 数 都 移 走 。 合 适 的 右 移 将 一 个 最 字 右 边 的 区 域 都 移 走 ， 将 0 留 在 字 中 。 注 意 到 
“逻辑 与 ”操作 会 保留 原始 的 值 ， 移 动 操作 对 将 需要 的 区 域 移动 到 字 的 最 右边 。 
1) 全 对 。2) A 
两 个 都 对 。 
1) B 2) C 
1) D 2)F 3) D 
两 个 都 对 。 
D。 
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计算 机 的 算术 运算 





数值 的 精确 度 是 科学 的 灵魂 。 





Sir D’ arcy Wentworth Thompson, 《On Growth and Form》 ，1917 





计算 机 的 五 大 经 典 部 件 


3.1 引言 


计算 机 中 的 字 由 位 组 成 。 因 此 ， 字 可 以 用 二 进 制 数 来 表示 。 第 2 章 里 提 到 整数 可 以 表示 成 十 
进 制 或 者 二 进 制 形式 , 但 是 其 他 常用 的 数据 如 何 表示 ? 如 : 

。 小 数 和 其 他 实数 如 何 表 示 ? 

。 当 一 个 操作 生成 了 一 个 无 法 表示 的 大 数 时 如 何 处 理 ? 

。 上 述 问题 隆 含 着 一 个 秘密 : 怎样 用 硬件 真正 地 做 乘法 和 除法 ? 

本 章 的 目的 就 是 要 揭示 这 些 基本 原理 ， 包 括 实数 的 表示 方法 、 算 术 的 算法 、 实 现 这 些 算法 的 
硬件 ， 以 及 如 何在 指令 集中 表示 有 关 的 内 容 。 有 了 这 些 知 识 后 ， 你 就 能 解释 在 使 用 计算 机 的 过 程 
中 过 到 的 各 种 不 明白 的 事情 了 。 


3.2 加 法 和 减法 





No. 10, Top Ten Courses for Athletes at a Football Factory, 
David Letterman 等 , 《Book of Top Ten Lists》，1990 
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加 法 是 计算 机 中 必 备 的 操作 。 数 据 从 右 到 左 逐 位 相 加 ， 同 时 进位 也 相应 地 向 左 传播 ， 就 如 手 
动 计算 一 样 。 减 法 也 可 采用 加 法 实现 : 减 数 在 简单 的 取 反 后 再 进行 加 法 操作 。 
二 进 制 加 法 和 减法 
在 二 进 制 下 ， 首 先 计算 7 加 上 6,。， 然 后 计算 7。 减 去 6。。 
0000 0000 0000 0000 0000 0000 0000 0111, =7,, 


+ 0000 0000 0000 0000 0000 0000 0000 0110, =6,, 
= 0000 0000 0000 0000 0000 0000 0000 1101, =13,, 


只 有 右边 四 位 发 生变 化 。 图 3-1 给 出 了 和 位 与 进位 。 其 中 ， 进 位 放 在 括号 里 ， 箭 头 标记 了 进 
位 的 方向 。 





(0) 0 (0)0 (0 1 (1 (0 (0) 1 


图 3-1 二 进 制 加 法 ， 显示 了 从 右 到 左 的 进位 
最 右边 的 位 将 1 和 0 相 加 ， 得 到 该 位 的 和 为 1， 该 位 的 进位 为 0。 因 此 ， 右边 第 二 位 数 的 操作 是 0 +1 +1。 该 操 
作 的 和 为 0， 进 位 为 1。 第 三 位 是 1+1 +1 的 和 ， 得 到 的 进位 为 1， 和 为 1。 第 四 位 是 1 +0+0， 和 为 1， 无 进位 。 


7wo 减 去 6 可 以 直接 操作 : 

0000 0000 0000 0000 0000 0000 0000 0111, =7,, 
- 0000 0000 0000 0000 0000 0000 0000 0110, =6,, 
= 0000 0000 0000 0000 0000 0000 0000 0001, =1,, 


或 者 通过 加 上 -6 的 二 进 制 补 码 来 实现 : 

0000 0000 0000 0000 0000 0000 0000 0111, =7,, 
+ 1111 1111 1111 1111 1111 1111 1111 1010, = - 6,, 
= 0000 0000 0000 0000 0000 0000 0000 0001, =1,, 


硬件 规模 总 是 有 一 定 限制 的 ， 如 字 宽 只 有 32 位 。 当 运算 结果 超过 这 个 限制 时 ， 就 会 发 生 溢 
出 。 加 法 在 什么 情况 下 会 溢出 呢 ? 当 相 加 的 两 个 源 操作 数 符号 相 异 时 ， 不 会 发 生 溢出 ， 如 一 10 + 
4 -6。 因 为 源 操作 数 可 以 用 32 位 的 字 表 示 ， 而 “和 ” 不 会 大 于 其 中 任何 一 个 源 操作 数 ， 所 以 和 
也 可 以 用 32 位 来 表示 。 因 此 ， 当 正 数 和 负数 相 加 时 不 会 发 生 溢出 。 

在 做 减法 时 也 会 有 类 似 的 情况 ， 只 不 过 采用 的 规则 相反 ， 当 源 操作 数 的 符号 相同 时 ， 不 会 发 
生 洲 出 。 我 们 知道 ,x -y=x+( -yy)， 这 是 因为 减法 是 把 第 二 个 源 操作 数 变相 反 符 号 然后 相 加 ， 
所 以 当 两 个 同 符号 的 数 作 减 法 时 ， 实际 上 是 把 两 个 符号 相 异 的 数 相 加 ， 也 不 会 发 生 溢出 。 

知道 游 出 在 加 减法 中 何 时 不 会 发 生 固 然 重要 ， 但 如 何 检测 它 何 时 发 生 ? 很 明显 ， 加 或 者 减 两 个 
32 位 的 数 可 能 产生 需要 用 33 位 来 表示 的 结果 。 如 果 缺 少 了 第 33 位 ， 则 溢出 发 生 时 ， 符 号 位 就 可 能 
被 数值 位 占用 而 产生 错误 。 因 此 ， 当 两 个 正 数 相 加 但 结果 为 负 时 ， 就 说 明 发 生 了 溢出 ， 友之 亦 然 。 

在 做 减法 时 ， 如 果 用 一 个 正 数 减 去 一 个 负数 得 到 一 个 负 的 结果 ， 或 者 用 一 个 负数 减 去 一 个 正 数 然 
后 得 到 一 个 正 的 结果 ， 则 发 生 了 溢出 。 这 也 意味 着 借 位 占用 了 符号 位 。 图 3-2 给 出 了 发 生 溢出 的 条 件 。 

操作 产 操 作 数 A 1 源 操作 数 $B 发 生活 出 时 的 结果 
A 一 


















图 3-2 加 减法 的 溢出 条 件 
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上 面 介 绍 了 如 何 检 测 计 算 机 中 的 二 进 制 补 码 操 作 的 洲 出 ， 但 无 符号 整数 的 洲 出 情况 是 如 何 
的 呢 ? 由 于 无 符号 数 通常 用 于 表示 内 存 地 址 ， 这 种 情况 下 的 溢出 可 以 忽略 。 

因此 ， 计 算 机 设计 者 必须 提供 一 种 方法 ， 能 够 在 某 些 情况 下 忽略 溢出 的 发 生 ， 而 在 另 一 些 情 
帝 下 则 能 进行 溢出 的 检测 。MIPS 采用 两 种 类 型 的 算术 指令 来 解决 这 个 问题 : 

。 加 法 (agd)、 立 即 数 加 法 (aadi)〉 和 减法 (sub) ， 这 三 条 指令 在 溢出 时 产生 异常 。 

s 无 符号 加 法 〈aadu) 、 立 即 数 无 符号 加 法 〈aadiu) 和 无 符号 减法 (supu) ， 这 三 条 指令 

在 发 生 溢 出 时 不 会 产生 异常 。 

因为 C 语言 忽略 谥 出 ， 所 以 MIPS C 编译 器 总 是 采用 无 符号 的 算术 指令 agdu、addiu 和 subu， 
而 不 必 考 虑 变量 的 类 型 。 但 是 MIPS Fortran 编译 器 会 根据 源 操 作 数 的 类 型 来 选择 相应 的 算术 
指令 。 

光盘 中 的 附录 C 描述 了 做 加 减法 的 算术 逻辑 单元 ”的 硬件 实现 。 
硬件 /软件 接口 

计算 机 设计 者 必须 考虑 如 何 处 理 算 术 溢 出。 但 是 一 些 编程 语言 如 C 和 Java 会 忽略 整数 溢出 ， 
而 Ada 和 Fortran 语言 则 需要 通知 程序 溢出 。 因 此 程序 员 或 者 是 编程 环境 必须 决定 在 溢出 发 生 时 
如 何 处 理 。 

MIPS 检测 到 溢出 时 会 产生 异常 >， 在 许多 计算 机 系统 中 也 叫做 中 断 S。 从 本 质 上 来 说 ， 蜡 党 
或 中 断 是 一 种 打 断 正常 过 程 的 系统 调用 。 产 生 溢 出 的 指令 地 址 保存 在 一 个 寄存 器 中 ， 而 后 计算 
机 会 跳 到 一 个 预先 设 定好 的 地 址 去 执行 相应 的 异常 处 理 程序 。 保 存 异 常 地 址 的 目的 是 为 了 在 某 
些 条 件 下 能 够 在 异常 处 理 程 序 执行 完 后 返回 原 程 序 继 续 执 行 。(4.9 节 给 出 了 有 关 异 常 的 更 多 细 
节 ; 第 5 章 和 第 6 章 中 描述 了 异常 和 中 断 发 生 的 其 他 条 件 。) 

MIPS 使 用 命名 为 异常 程序 计数 器 (exception program counter，EPC) 的 寄存 器 来 保存 导致 异 
党 的 指令 地 址 。 指 令 mfc0 (move from system control) 用 来 将 EPC 存 入 一 个 通用 寄存 锋 ， 从 而 使 
MIPS 软件 可 以 通过 寄存 器 跳 转 指令 返回 到 导致 异常 的 指令 那里 。 


3.2.1 多 媒体 算术 运算 


因为 昌 面 微 处 理 器 都 有 自身 的 图 形 显示 设备 ， 所 以 随 着 晶体 管 生 产 预算 的 增加 ， 处 理 器 不 
可 避免 地 需要 增加 对 图 形 处 理 操作 的 支持 。 

人 在 许多 图 像 系 统 中 ， 使 用 8 位 表示 三 原色 中 的 一 种 ， 再 用 额外 的 8 位 表示 像素 的 位 置 。 此 外 
在 电话 会 议和 视频 游戏 中 ， 对 扬声器 和 麦克 风 的 使 用 需要 对 声音 进行 表达 和 处 理 。 音频 采样 需 
要 高 于 8 位 的 精度 ， 一般 16 位 是 足够 的 。 

一 般 微 处 理 器 都 有 对 8 位 和 半 字 位 长 的 特殊 支持 ， 以 便 在 存储 时 可 占用 更 少 的 空间 ( 见 2.9 
广 )。 但 是 ， 因 为 在 传统 的 整数 程序 中 针对 这 些 位 长 的 算术 操作 使 用 较 少 ， 从 而 除了 数据 传输 操 
作 外 ， 处 理 器 很 少 支持 此 类 位 长 的 操作 。 现 在 ， 体系 结构 设计 者 认识 到 在 图 像 和 音频 应 用 中 ， 总 
契 需 要 对 这 些 称 为 短 向 量 的 8 位 或 半 字 位 长 数据 进行 相同 的 操作 。 通 过 把 64 位 加 法 器 的 进位 链 
分 段 ， 处 理 器 就 可 以 同时 处 理 八 个 8 位 长 的 源 操作 数 ， 或 者 四 个 16 位 长 的 源 操作 数 ， 或 者 两 个 
32 位 长 的 源 操 作 数 。 而 加 法 器 分 段 的 代价 很 小 。 这 样 的 扩展 称 为 向 量 计算 或 单 指 令 多 数据 计算 
( 见 2.17 节 和 第 7 章 ) 。 

饱和 (saturating) 操作 是 通用 微 处 理 器 中 -一 个 不 常 出 现 的 特性 。 饱和 意味 着 当 计 算 结 果 溢 出 





加 ”算术 逻辑 单元 (ALU) : 用 于 执行 加 法 、 减 法 ， 通 常 也 包括 如 逻辑 与 、 逻辑 或 等 逻辑 操作 的 硬件 。 
加 异常 : 也 叫 中 断 ， 一 种 打 断 正常 程序 执行 过 程 的 事件 ， 用 于 溢出 检测 
号” 中断; 来 自 处 理 器 外 部 的 异常 。 (在 某 些 体系 结构 中 所 有 的 异常 都 称 为 中 断 。) 
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时 ， 结 果 被 设置 为 最 大 的 正 数 或 者 最 小 的 负数 ， 而 不 像 二 进 制 补 码 运算 那样 采用 取 模 操作 来 获 
得 结果 。 饱和 操作 一 般 更 适合 多 媒体 操作 。 例 和 此 今 类 基 . | 源 操作 数 | 国 
如 ， 当 不 断 旋转 收音 机 音量 的 旋钮 时 ， 起 初 声音 | 。 天生 /2。。 | 8fy 4 0 个 16 人 发 


逐渐 增 大 ， 但 如 果 大 到 一 定 值 后 声音 突然 变 小 
那么 这 符 的 收 营 宙 设计 是 个 分 理 的 。 然 而 ， 对 一 
| 平均 值 | 


台 有 人 饱和 操作 的 收音 机 ， 当 向 最 大 值 方向 旋转 音 [一 三 让 


荆 放 人 到 一 定 程度 后 ， 即 合理 放 转 音量 也 只 全 


停 在 最 大 值 上 。 图 3-3 给 出 了 现代 指令 集中 多 媒 
体 扩 展 常用 的 一 些 算术 和 有 逻辑 操作 。 3-3 ”桌面 计算 机 中 支持 多 媒体 操作 的 汇总 表 

精 解 : MIPS 在 溢出 时 会 产生 异常 ， 但 和 其 他 许多 计算 机 不 同 ， 它 没有 测试 溢出 的 条 件 分 支 。 一 个 
MIPS 指令 序列 可 以 发 现 游 出。 对 于 有 符号 加 法 ， 这 个 序列 如 下 ( 见 2.6 节 描 述 xor 指令 的 精 解 ) 















addu $tO, $t1 ,S$t2 #$t0 = sum, but don’t trap 
xOr $t3,8$t1,$t2 #Check if signs differ 
slt $t3,$t3,$2zero #$t3 = 1 if signs differ 
bne $t3,$zero, NO overflow #$tl1, $t2 signs A , so no overflow 
xoOr $t3, Bt0, $t1 #signs =; sign of sum match too? 
#$t3 negative if sum sign different 
sit $t3, $t3,$zero #$t3 = 1 if sum sign different 
bne $t3,$zero, Overflow #Al11 3 signs A; go to overflow 
对 于 无 符号 加 法 ($to =$tl +$t2) ， 测 试 则 为 : 
addu $t0,$t1,$t2 #$t0O = sum 
nor S$t3,$t1,$zero #$t3 = NOT $t1 
#(2 s comp - 1:2™- $tl -1) 
sltu S$t3,$t3,$t2 #(2”- $tl - 1) < $t2 
#=32™ -1 < $tl + $t2 
bne  $t3,$zero,Overflow #if(2 -1 < $tl + $t2) goto overflow 
3. 2.2 小 结 


本 下 主要 指出 ， 无 论 采 用 哪 种 数 的 表示 方法 ， 有 具有 有 限 字 长 的 计算 机 在 进行 算术 操作 时 都 
可 能 发 生 溢出 。 无 符号 数 的 溢出 是 容易 检测 的 ， 但 无 符号 数 通 常用 于 地 址 计算 ， 因 为 程序 通常 并 
不 需要 检测 地 址 计算 的 溢出 ， 所 以 这 些 溢出 往往 被 忽略 。 有 符号 数 的 溢出 检测 比较 麻烦 ， 但 是 有 
些 软 件 系统 需要 检测 溢出 ， 所 以 今天 所 有 的 计算 机 都 支持 溢出 检测 。 

随 着 多 媒体 应 用 的 逐渐 流行 ， 出 现 了 支持 易于 并 行 执行 的 短 操作 数 的 算术 指令 。 

小 测验 

某 些 程序 语言 支持 字 节 或 者 半 字 的 二 进 制 补 码 的 整数 算术 。 那 么 将 会 使 用 哪些 MIPS 指令 ? 

A. 取 数 使 用 lbu、1lhu; 算术 操作 采用 add、sub .mult、div; 存 数 采 用 sb、sh。 

B. 取 数 使 用 lb、1h; 算术 操作 采用 ada、sub、mult、qdiv; 存 数 采用 sb sh。 

C. 取 数 使 用 lb、lh; 算术 操作 采用 add、sup、mult、div， 采 用 AND 来 屏蔽 每 次 运算 的 结果 到 8 位 或 者 

16 位 ; 存 数 采用 sb、sh。 

精 解 : 在 前 文中 我 们 说 过 ， 可 以 通过 mfco 指令 将 EPC 内 容 复制 到 一 个 寄存 器 ， 然 后 通过 跳 转 寄存 器 
返回 到 被 中 断 的 代码 。 这 样 做 会 导致 一 个 有 趣 的 问题 ; 既然 必须 首先 使 用 跳 转 寄存 器 传输 EPC 到 一 个 寄存 
带 ， 那 么 跳 转 寄存 器 该 如 何 返 回 到 被 中 断 的 位 置 ， 并 恢复 所 有 寄存 器 的 原 值 呢 ? 如 果 先 恢复 所 有 寄存 器 的 
原 值 ， 则 来 自 EPC 的 返回 地 址 就 会 被 破坏 。 如 有 果 在 恢复 所 有 寄存 器 的 原 值 时 保留 那个 返回 地 址 的 寄存 器 不 
变 ， 这 样 可 以 进行 正确 跳 转 ， 但 是 这 也 意味 着 在 程序 执行 的 任何 时 刻 ， 异常 会 导致 一 个 寄存 器 的 值 无 法 被 
恢复 。 两 者 都 是 不 可 行 的 。 
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为 了 将 硬件 设计 从 这 一 困境 中 解救 出 来 ，MIPS 允许 程序 员 将 寄存 器 $k0 和 $kl 预 留 给 操作 系统 。 这 些 
寄存 器 在 异常 时 不 会 恢复 。 仅 仅 当 MIPS 编译 器 避免 使 用 $at 寄存 器 时 ， 汇 编程 序 可 以 使 用 它 作 为 临 
时 寄存 器 ( 见 2. 10 节 的 硬件 /软件 接口 ) ， 编 译 器 也 可 以 避免 使 用 寄存 器 $ko 和 $k1， 从 而 使 它们 空 
出 来 给 操作 系统 。 异 常 处 理 程序 将 返回 地 址 放 在 其 中 的 一 个 寄存 器 中 ， 然 后 利用 跳 转 寄存 器 返回 指令 地 址 。 

精 解 : 确定 进位 到 达 高 位 的 速度 变 快 ， 加 法 的 速度 也 随 之 加 快 。 有 许多 方案 可 以 用 来 加 速 这 个 进位 ， 最 
坏 情 况 下 的 进位 时 间 是 加 法 器 位 长 的 log2 的 函数 。 预 期 信号 传输 更 快 是 因为 它们 经 过 了 更 少 的 门 电路 序列 ， 
而 加 速 进位 需要 更 多 门 电 路 ， 最 流行 的 结构 是 超前 进位 (carry lookahead) 加 法 器 ， 见 光盘 中 的 附录 C. 6。 


3.3 乘法 
乘法 令 人 恼怒 ， 除 法 更 其 ; 比例 运算 困扰 着 我 ， 做 练习 令 我 发 疯 。 
一 一 佚名 , 《Elizabethan manuscript》，1570 
现在 我 们 已 经 完成 了 对 加 法 、 减 法 的 解释 ， 本 节 开 始 分 析 更 复杂 的 乘法 操作 。 
首先 ， 通 过 用 普通 写法 表示 的 十 进 制 数 乘法 来 回忆 一 下 乘法 的 步骤 和 操作 数 的 名 称 。 为 简 
单 起 见 ， 我 们 只 用 十 进 制 数 中 的 0 和 1 来 作为 例子 ,计算 1000,。 乘 以 1001,,: 





被 乘 数 100014 
乘 数 x 10011, 
1000 
0000 
0000 
1000 
积 1001000 


第 一 个 源 操作 数 称 为 被 乘 数 ， 第 二 个 源 操作 数 称 为 乘 数 ， 最 终 的 结果 称 为 积 。 你 会 回忆 起 在 
学 校 学 过 的 乘法 规则 : 每 次 从 右 到 左 选 取 乘 数 的 一 位 ， 乘 以 被 乘 数 ， 然 后 相对 上 一 个 中 间 积 ， 将 
当前 积 左 移 一 位 。 

可 以 观察 到 ， 积 的 位 数 远 远 大 于 被 乘 数 和 乘 数 。 事 实 上 ， 如 果 我 们 忽略 符号 位 ， 若 被 乘 
数 为 n 位 ， 乘 数 为 m 位 ， 则 积 的 位 数 为 n+ m。 即 ,需要 n+m 位 来 表示 所 有 可 能 的 积 。 因 此 ， 
像 加 法 一 样 ， 乘 法 也 需要 处 理 溢 出 ， 因 为 我 们 经 常 需要 两 个 32 位 长 的 数 相 乘 产生 一 个 32 位 
长 的 积 。 

在 这 个 例子 中 ， 我 们 只 使 用 了 十 进 制 中 的 0 和 1。 因 为 只 有 两 个 选择 ， 所 以 每 一 步 的 乘法 都 
很 简单 

1) 当 和 磁 数 位 为 1 时 ， 只 需要 将 被 乘 数 (1 x 被 乘 数 ) 复制 到 合适 的 位 置 。 

2) 当 乘 数位 为 0 时 ,将 0 (0 x 被 乘 数 ) 放置 到 合适 的 位 置 。 

电 然 上 面 十 进 制 的 例子 是 限制 使 用 了 0 和 1， 但 二 进 制 数 的 乘法 只 能 使 用 0 和 1， 因 此 也 只 
有 这 两 种 选择 。 

分 析 了 乘法 的 基本 原则 之 后 一 般 来 讲 下 一 步 就 会 马上 开始 介绍 乘法 硬件 及 其 优化 。 但 为 了 
更 好 地 理解 这 一 问题 ， 我 们 打破 这 一 传统 ， 先 通过 倍数 的 生成 来 展示 乘法 硬件 和 算法 的 进化 过 
程 。 首先， 我 们 假设 只 使 用 正 数 为 源 操作 数 。 


3.3. 1 顺序 的 乘法 算法 和 硬件 


该 设计 模拟 我 们 在 小 学 学 过 的 算法 : 图 3-4 给 出 了 硬件 结构 。 我 们 画 出 了 硬件 ， 使 得 数据 济 
从 项 至 下 ,很 像 我 们 用 纸 和 笔 计 算 的 方法 。 
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3-4 ”第 一 版 乘法 器 硬件 结构 

被 乘 数 寄存 器 、ALU 和 积 寄 存 器 都 
是 64 位 长 ， 而 乘 数 寄存 器 为 32 位 
长 。( 光 盘 中 的 附录 C 对 ALU 进行 了 
描述 。) 32 位 的 被 乘 数 在 开始 时 放置 
在 被 乘 数 寄 存 器 的 右 半 部 分 ， 然 后 每 
次 左 移 一 位 。 乘 数 则 每 次 向 相反 的 方 
向 移动 。 算 法 开始 时 ， 积 被 初始 化 为 
0。 控 制 逻辑 决定 何 时 对 被 乘 数 和 乘 
数 寄存 器 进行 移 位 ， 以 及 何 时 将 新 值 
写 人 积 寄 存 器 。 





假设 乘 数 放置 在 32 位 的 乘 数 寄 存 器 中 ，64 位 的 积 寄存 器 被 初始 化 为 0。 从 采用 纸 和 笔 计算 
的 方法 中 ,我 们 可 以 清楚 地 看 到 被 乘 数 在 每 步 需 要 左 移 一 位 ， 因 为 它 需要 与 前 面 的 中 间 结 果 相 
加 。 在 经 过 32 步 后 ，32 位 长 的 被 乘 数 将 要 左 移 32 位 。 因 此 ， 我 们 还 需要 一 个 64 位 的 被 乘 数 寄 
存 器 ， 且 在 初始 化 时 32 位 的 被 乘 数 放 在 右 半 部 分 ， 左 半 部 分 清 0。 然 后 ， 每 执行 一 步 ， 这 个 寄 
存 器 中 的 值 就 左 移 一 位 ， 将 被 乘 数 与 64 位 积 寄存 器 中 的 中 间 结 果 对 齐 并 累加 到 中 间 结 果 。 

3-5 给 出 了 对 于 操作 数 的 每 一 位 的 三 
个 基本 执行 步骤 。 乘 数 的 最 低位 〈 乘 数 的 
第 0 位 ) 决定 了 被 乘 数 是 否 被 加 到 积 寄存 
器 上 。 第 二 步 中 的 左 移 起 着 将 被 乘 数 左 移 
的 作用 ， 就 如 同 用 纸 和 笔 做 乘法 一 样 。 第 as 
三 步 中 的 右 移 给 出 了 下 一 个 迭代 中 要 用 的 
乘 数位 。 这 三 个 步骤 要 重复 执行 32 次 来 获 
得 积 。 如 果 每 步 需 要 一 个 时 钟 周期 ， 这 个 
算法 将 需要 大 概 100 个 时 钟 周期 来 完成 两 个 
32 位 的 数 相 乘 。 像 乘法 这 样 的 算术 操作 的 
相对 重要 性 因 程序 而 异 ， 一 般 加 法 和 减法 
出 现 的 次 数 要 比 乘法 频繁 5 ~ 100 倍 。 因 此 ， 
在 许多 应 用 程序 中 多 步 乘法 不 会 显著 影响 
性 能 。 但 Amdahl 定律 ( 见 1.8 节 ) 告诉 我 
们 如 果 一 个 慢 速 操作 在 程序 中 占据 一 定 比 
重 的 话 ， 也 会 限制 程序 的 性 能 。 

这 个 算法 和 硬件 结构 可 以 很 容易 改进 
成 每 一 步 只 需要 一 个 时 钟 周期 。 这 些 操作 
可 以 并 行 化 来 加 速 执行 ， 当 乘 数位 为 1 时 ， 
将 乘 数 和 被 乘 数 进行 移 位 ， 同 时 将 被 乘 数 





乘 数 的 0 位 =0 


和 积 相 加 。 这 时 需要 保证 硬件 测试 的 是 乘 是 : 重复 了 32 次 
数 最 右边 的 位 ， 而 且 得 到 的 是 被 乘 数 移 位 

前 的 值 。 注 意 到 加 法 器 和 寄存 器 中 有 未 使 

用 的 部 分 后 ， 可 以 通过 将 加 法 器 和 寄存 器 图 3-5 第 一 种 乘法 算法 


的 位 长 六 下 全 不 汶 个 结构 。 ”其 硬件 结构 见 图 3-4。 如 果 乘 数 的 最 低 有 效 位 为 1， 则 将 被 科 
位 长 减 半 来 进一步 优化 这 个 硬件 结构 。gjn 在 积 上 ， 否则 ， 浊 入 下 一 步 。 在 下 两 步 中 渤 行 守 有 数 的 在 
如 图 3-6 所 示 为 修正 后 的 硬件 。 移 和 乘 数 的 右 称 。 这 三 个 步 又 需要 重复 32 次 。 
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3-6 乘法 紫 硬 件 的 改进 版 

与 图 3-4 中 的 第 一 版 硬件 结构 相 比 ， 
被 乘 数 寄存 器 、ALU、 乘 数 寄存 器 都 
是 32 位 长 ， 只 有 积 寄 存 器 是 64 位 长 。 
现在 将 积 进行 右 移 ， 单 独 的 乘 数 寄存 
器 也 撤销 了 。 乘 数 放 在 积 寄 存 器 的 右 
半 部 分 。 这 些 变化 使 用 加 粗 标 明 。( 乘 
法 寄存 器 实际 上 应 该 是 65 位 ， 以 保存 
加 法 髓 的 进位 ,但 这 里 给 出 的 是 4 
位 ， 以 突出 从 图 3-4 的 演变 ) 





”3204AU 






NE) 


硬件 软件 接口 | 

当 乘 数 为 常数 时 ， 乘 法 也 可 以 用 移 位 来 昔 代 。 一 些 编译 器 将 有 短 常 数 的 乘法 替换 为 一 系列 
的 移 位 和 加 法 。 因 为 左 移 一 位 就 是 将 一 个 数 放 大 两 倍 ， 左 移 和 乘 以 2 为 底 的 指数 有 着 等 同 的 效 
果 。 正 如 第 2 章 所 提 到 的 ， 几 乎 每 个 编译 器 都 将 以 2 为 底 的 指数 乘法 替换 为 移 位 来 进行 优化 。 
乘法 算法 

为 了 节省 空间 ， 使 用 的 是 4 位 长 的 数 ， 计 算 2,。x3。， 或 0010, x0011, 的 积 。 


图 3-7 给 出 了 按 图 3-5 中 标 出 的 每 一 步 执行 后 各 个 寄存 器 的 值 ， 最 终结 果 为 0000 0110,， 即 
60o。 加 粗 数据 表示 每 步 中 寄存 器 值 的 变化 。 带 圈 的 位 用 于 决定 下 一 步 的 操作 。 


0 00 
| 
EE oo 






3-7 ”使 用 图 3-5 中 算法 的 乘法 例子 
加 图 圈 起 来 的 是 下 一 步 需 要 检测 的 位 。 


3. 3.2 有 符号 乘法 


到 目前 为 止 ， 我 们 处 理 的 对 象 都 是 正 数 。 对 于 理解 如 何 处 理 有 符号 乘法 ,最 简单 的 方法 是 首 
先 将 被 乘 数 和 乘 数 转化 为 正 数 ， 并 记 住 原来 的 符 呈 位。 这样 ， 就 可 用 上 述 最 后 的 算法 和 迭代 31 次 ， 
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符号 位 不 必 参 与 运算 。 当 符号 相 异 时 ， 积 为 负 。 
3. 3.3 更 快速 的 乘法 


摩尔 定律 为 我 们 提供 了 非常 充足 的 资源 ， 使 硬件 设计 者 可 以 设计 更 快速 的 乘法 器 。 我 们 可 
以 在 乘法 运算 开始 的 时 候 通 过 检查 乘 数 的 32 位 ， 来 判定 被 乘 数 是 否 被 加 上 。 人 快速 的 乘法 运算 主 
要 的 思想 是 为 乘 数 的 每 一 位 提供 一 个 32 位 的 加 法 器 : 一 个 用 来 输入 被 乘 数 和 一 乘 数位 相 与 的 结 
果 ， 另 一 个 是 上 一 个 加 法 器 的 输出 。 

一 种 直接 的 方法 是 将 每 个 右边 的 加 法 器 的 输出 作为 左边 加 法 器 的 输入 ， 形 成 一 个 高 319 的 加 
法 器 栈 。 一 种 替换 的 方法 是 将 31° 个 加 法 器 组 织 成 一 个 并 行 树 ， 如 图 3-8 所 示 。 这 样 ， 我 们 只 需 
要 等 待 log,(32) 即 5 次 32 位 长 加 法 的 时 间 ， 而 不 是 等 待 319 次 加 法 的 时 间 。 


乘 数 31 位 。 乘 数 30 位 乘 数 29 位 。 乘 数 28 位 乘 数 3 位 。 ” 乘 数 2 位 乘 数 1 位 。 乘 数 0 位 
' 被 乘 数 “被 乘 数 ， 被 乘 数 “被 乘 数 " 被 乘 数 “被 乘 数 “被 乘 数 “被 乘 数 


NU NU 





1 位 十 1 位 





积 的 第 63 位 积 的 第 62 位 ~ 积 的 第 47 ~ 16 位 积 的 第 1 位 积 的 第 0 位 


图 3-8 快速 乘法 器 硬件 结构 
这 个 结构 使 用 31 个 加 法 器 “展开 循环 ”来 实现 最 小 的 时 延 ， 而 不 再 是 使 用 单个 32 位 的 加 法 器 31 次。 
事实 上 ， 通 过 使 用 进位 保留 加 法 器 〈 见 光盘 中 的 附录 C.6) ， 乘 法 的 计算 速度 可 以 快 于 5 次 加 
法 。 而 且 由 于 易于 应 用 流水 线 设 计 执 行 ， 这 样 的 结构 可 以 同步 支持 多 个 乘法 〈 见 第 4 章 )。 


3. 3.4 MIPS 中 的 乘法 


MIPS 提供 了 一 对 单独 的 32 位 寄存 器 来 容纳 64 位 的 积 ， 称 为 下 和 Lo。 为 了 产生 正确 的 有 符 
号 积 和 无 符号 积 ，MIPS 提供 了 两 个 指令 : 乘法 (mult) 和 无 符号 乘法 (multu) 。 为 了 取得 32 位 
的 整数 积 ， 程 序 员 需 要 使 用 mflo 指令 (move from lo)。MIPS 汇编 器 为 乘法 生成 了 一 条 伪 指 令 ， 
它 使 用 了 三 个 通用 寄存 需 9 用 mflo 和 和 mfhi 指令 将 积 送 人 指定 的 寄存 器 。 


3. 3.5 ”小结 


乘法 硬件 只 是 简单 的 移 位 和 加 法 ， 其 算法 类 似 于 采用 纸 和 笔 的 计算 方法 。 编 译 器 甚至 会 用 
移 位 指令 来 代替 乘 数 为 2 的 大 次 的 乘法 操作 。 
硬件 ; 软件 接口 
MIPS 乘法 指令 都 忽略 溢出 ， 所 以 要 由 软件 来 检测 是 否 因 积 过 大 而 不 能 被 32 位 所 表示 。 对 于 





昌 原文 为 和 2。 一 一 译 者 注 
捉 原文 为 32。 一 一 译 者 注 
旧 原文 为 32。 一 一 译 者 注 


第 3 章 ”计算 机 的 算术 运算 - 143 


multu 指令 ， 如 果 Hi 为 0 则 无 溢出 ; 对 于 mult 指令 ， 如 果 Hi 为 Lo 的 符号 位 则 也 无 溢出 。 可 以 
使 用 指令 mfhi (move from hi) 将 Hi 的 值 移入 一 个 通用 寄存 器 来 检测 溢出 。 


3.4 除法 
Divide et impera. 
一 一 拉丁 语 ， 意 为 “分 而 治之 ”， 引 自 Machiavelli 的 一 句 政 治 能 言 ，1532 年 
和 乘法 相反 的 操作 是 除法 ， 它 用 得 较 少 ， 但 很 诡异 。 它 甚至 可 能 会 出 现 数学 上 的 无 效 操作 : 
除数 为 0。 
首先 通过 十 进 制 数 的 长 除 来 回忆 一 下 操作 数 的 命名 和 小 学 时 学 习 的 除法 算法 。 类 似 于 前 面 ， 
我 们 只 使 用 十 进 制 中 的 0 和 1。 这 个 例子 是 计算 1 001 010, 除 以 1000,。: 





1001 ， 商 
除数 1000,。 门 001010, 被 除数 

-1000 

10 

101 

1010 

-1000 
10,。 余数 


除法 中 的 两 个 源 操作 数 ， 称 为 被 除数 ?和 除数 >， 结果 称 为 商 “， 还 有 一 个 第 二 结果 ， 称 为 余 
数 ”。 这 里 用 一 种 方式 来 表达 它们 之 间 的 关系 : 

被 除数 = 商 x 除 数 + 余 数 

这 里 余数 要 小 于 除数 。 在 某 些 场合 ， 程 序 使 用 除法 指令 只 是 为 了 获得 余数 ， 而 忽视 商 。 

这 个 过 程 中 每 次 都 尝试 看 最 大 能 减 掉 多 少 ， 然 后 以 此 产生 商 。 我 们 小 心地 选择 出 只 用 0 
和 1 的 十 进 制 例子 ， 从 而 很 容易 判断 出 需要 将 多 少 倍 的 除数 从 被 除数 中 减 去 : 要 么 是 1 售 ， 
要 么 是 0 倍 。 二 进 制 数 仅 包含 0 和 1， 所 以 二 进 制 除法 也 仅 有 这 两 种 选择 ， 从 而 简化 了 二 进 制 

现在 我 们 假设 被 除数 和 除数 都 为 正 ， 因 此 商 和 余数 也 都 非 负 。 除 法 的 源 操作 数 和 两 个 结果 
都 是 32 位 宽 ， 我 们 暂且 忽略 符号 位 。 


3. 4. 1 ”除法 算法 及 其 硬件 结构 


图 3-9 给 出 了 模拟 小 学 学 过 的 除法 算法 的 硬件 结构 。 在 开始 时 ，32 位 的 商 寄存 器 设 为 0。 算 
法 每 次 的 迭代 将 除数 问 右 移 一 位 。 所 以 我 们 需要 在 开始 时 将 除数 放置 在 64 位 除数 寄存 希 的 左 半 
边 ， 然 后 每 次 右 移 一 位 来 和 被 除数 对 齐 。 余 数 寄存 器 初始 化 为 被 除数 。 

图 3-10 给 出 了 第 一 种 除法 算法 的 三 个 步骤 。 不 像 人 那样 聪明 ,计算 机 不 可 能 提前 知道 除数 是 
否 小 于 被 除数 。 所 以 需要 在 第 一 步 中 减 去 除数 ; 如果 结果 为 正 ， 则 除数 小 于 等 于 被 除数 ， 所 以 我 们 
取 商 为 1 (第 2a 步 )。 如 果 结 果 为 负 ， 则 通过 将 除数 加 到 余数 来 恢复 上 一 次 的 值 ， 然 后 取 商 为 0 
(第 2b 步 ) 。 除 数 右 移 ， 然 后 再 次 迁 代 。 和 迭代 完成 后 ， 余 数 和 商 存 放 在 以 它们 命名 的 寄存 器 中 。 


昌 ”被 除数 : 被 除 的 数 。 

扣除 数 : 用 于 对 被 除数 进行 除法 的 数 。 

昌 ” 商 : 除法 的 主要 结果 ; 乘 以 除数 并 加 上 余数 产生 被 除数 的 数 。 

名 余数 ， 除法 的 第 二 个 结果 ， 加 在 商 和 除数 的 习 积 上 产生 被 除数 的 数 。 
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除数 
右 移 


2 


余数 ; 
Ce 


图 3-9 第 一 种 除法 器 硬件 结构 
除数 寄存 器 、ALU、 余 数 寄 存 器 都 是 64 位 宽 ， 只 有 商 寄存 器 是 32 位 宽 。32 位 的 除数 开始 放置 在 除数 寄存 
器 的 左 半 部 分 ， 然 后 每 次 迭代 右 移 一 位 。 余 数 寄存 器 初始 化 为 被 除数 。 控 制 好 辑 决定 何 时 对 除数 和 商 寄存 器 
进行 移 位 以 及 何 时 将 新 值 写 人 余数 寡人 存 回 。 


1. 用 余数 寄存 器 中 的 数值 减 去 除 
数 寄存 器 中 的 数值 ， 并 将 结果 放 入 
余数 寄存 器 中 




















2a. 左 移 商 寄存 器 





， 并 将 最 右边 的 














是 : 重复 了 33 次 


结束 


图 3-10 第 一 种 除法 算法 ， 其 硬件 结构 见 图 3-9 
如 果 余 数 为 正 ， 则 将 除数 从 被 除数 中 减 去 ， 然 后 在 第 2a 步 取 商 为 1。 如 果 第 1 步 之 后 余数 为 负 ， 则 意味 
着 除数 不 能 从 被 除数 中 减 去 ， 所 以 在 第 2b 步 中 商 0 并 将 除数 加 到 余数 上 ， 即 做 第 1 步 减 法 的 逆 操 作 。 在 第 
3 步 ， 进 行 最 后 的 移 位 ， 根 据 下 一 个 迭代 的 被 除数 ， 将 除数 适当 对 齐 。 这 些 步 又 将 要 重复 33 次 。 
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除法 算法 

为 了 节省 篇 四 ， 我 们 使 用 4 位 的 数据 。 计 算 7i 除 以 2,。， 邑 0000 0111, 除 以 0010,。 
答案 

图 3-11 给 出 了 每 步 中 各 个 寄存 器 的 值 ， 其 中 ， 商 为 3。， 余 数 为 lo。 注 意 到 ， 在 第 2 步 中 检 
测 傅 数 的 正 负 只 需要 简单 地 测试 余数 寄存 器 的 符号 位 是 0 还 是 1 即 可 。 这 个 算法 令 人 惊讶 的 是 ， 


需要 n+1 步 来 获得 适当 的 商 和 余数 。 


初始 值 


上 杀 数 -全 数 -除数 
2: 余数 <0 一 加 上 除数 ， 左 移 商 ， 商 的 第 0 位 置 0 | 
3 有 5 队 数 | 
余数 -全数 -除数 
2: 余数 >0 之 左 移 商 ， 商 的 第 0 位 置 1 
3 除数 
上 余数 -全数 - 队 数 
5 |2: 余数 >0 一 左 移 商 ， 商 的 第 0 位置 | 
3 除数 | 


3-11 除法 的 例子 ， 采用 图 3-10 中 的 算法 
图 中 图 起 来 的 位 用 于 决定 下 一 步 的 操作 。 
算法 和 对 应 的 硬件 结构 分 别 可 以 改进 得 更 快 ， 更 便宜 。 加 速 是 通过 将 源 操 作 数 和 商 移 位 与 
减法 同时 进行 。 注 意 到 寄存 器 和 加 法 器 有 未 用 的 部 分 ， 可 以 通过 将 加 法 器 和 寄存 器 的 位 长 减 半 
来 改进 硬件 结构 ， 如 图 3-12 所 示 为 改进 后 的 硬件 结构 。 








图 3-12 除法 器 的 一 种 改进 
版 本 

除数 寄存 器 、ALU、 商 寄存 器 都 是 

32 位 ， 只 有 余数 寄存 器 为 64 位 。 同 

图 3-9 相 比 ，ALU 和 除数 寄存 器 都 是 

位 宽 减 半 ， 余数 进行 左 移 。 这 个 结构 

将 商 寄存 器 和 余数 寄存 器 的 右 半 部 分 

ON 进行 了 拼接 。( 正 如 图 3-6 中 的 那样 ， 

“ 涤 em) 余数 寄存 器 应 该 是 65 位 从 而 保证 加 


法 器 的 进位 不 会 丢失 。) 


3. 4.2 有 符号 除法 


到 目 表 为止， 我 们 一 直 名 略 有 符号 数 的 除法 。 最 简单 的 办 法 是 记 住 除数 和 被 除数 的 符号 。 如 
采 两 者 的 符号 相 异 ， 则 商 为 负 。 
精 解 : 有 符号 除法 一 个 比较 麻烦 的 地 方 是 必须 设置 余数 的 符号 。 记 住 ， 下 面 的 公式 必须 满足 ; 
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被 除数 = 商 x 除 数 + 余 数 
为 了 理解 如 何 设置 余数 的 符号 ， 我 们 来 看 + 上 7 除 以 上 2 这 个 例子 的 各 种 情况 。 第 一 种 情况 很 简单 : 
+ 了 7 了 :+2: 商 = 十 3， 余数 = 十 
检查 结果 : 
7=3x2+(+1) =6+l 
如 果 我 们 改变 被 除数 的 符号 ， 商 就 会 改变 : 
(-7):(+2): 商 =-3 


重 写 基本 公式 来 计算 余数 : 
余数 = (被 除数 - 商 x 除数) = (~-7) -~[-3x(+2)] =(-7)-(-6) =-1 
从 而 ， 
(-7) (+2): 商 =-3, 余 数 = - 
各 次 检查 结果 : 


-7=(-3)x2+(-1) =-6-1 
商 是 -4 且 余 数 是 + 1 同样 满足 基本 公式 ,但 不 能 取 这 个 结果 ， 其 原因 是 如 果 那 样 ， 商 的 绝对 值 将 会 根 
据 被 除数 和 除数 的 符号 而 改变 ! 很 明显 ， 如 果 
- (XY) ss(-7x) +y 
编程 将 会 面临 更 大 的 挑战 。 保 持 被 除数 的 符号 和 余数 的 符号 相同 ， 而 不 管 除数 和 商 的 符号 如 何 ， 就 可 以 避 
免 这 种 异常 的 情况 。 
我 们 采用 相同 的 规则 计算 其 他 情况 : 
(+7) =(-2): 商 =-3， 余数 =+1 
(-7)=(-2): 商 =+3， 余数 =-1 
因此 ， 正 确 的 有 符号 除法 算法 在 源 操 作 数 的 符号 相反 时 商 为 负 ， 同 时 使 非 零 余 数 的 符号 和 被 除数 的 
相同 。 


3.4.3 更 快速 的 除法 


我 们 使 用 许多 加 法 器 来 加 速 乘 法 ， 但 这 一 招 对 除法 却 不 管用 。 因 为 除法 算法 每 次 迭代 前 需 
要 知道 减法 结果 的 符号 ， 而 乘法 却 可 以 立刻 生成 32 个 部 分 积 。 

有 一 些 技术 可 以 每 步 生 成 不 仅 一 个 商 位 。 如 被 称 为 SRT 的 除法 算法 ， 通 过 查找 表 方 法 来 党 
试 猜测 每 步 几 个 商 位 ， 其 中 查找 表 基 于 被 除数 和 余数 的 高 位 部 分 来 进行 。 它 依赖 后 面 的 步骤 来 
修正 错误 的 猜测 。 如 今 典 型 值 是 4 位。 算法 的 关键 是 猜测 要 减 的 值 。 对 于 二 进 制 算法 ， 只 有 一 种 
选择 。 可 用 余数 的 6 位 和 除数 的 4 位 来 索引 查找 表 ， 从 而 决定 每 步 的 猜测 。 

这 个 快速 算法 的 正确 性 取决 于 查找 表 中 的 值 是 否 合适 。 在 3. 8 节 给 出 了 如 果 查 找 表 不 正确 将 
会 出 现 的 情况 。 


3.4.4 MIPS 中 的 除法 


你 可 能 已 经 注意 到 图 3-6 和 图 3-12 中 相同 的 顺序 执行 硬件 结构 既 可 以 做 乘法 ， 又 可 以 做 除 
法 。 唯 一 需要 的 是 一 个 64 位 的 可 左右 移 位 的 寄存 器 和 一 个 能 做 加 减法 的 32 位 宽 的 ALU。 因此 ， 
MIPS 用 32 位 的 于 和 32 位 的 Lo 寄存 器 来 处 理 乘法 和 除法 。 我 们 从 上 面 的 算法 中 可 能 已 经 猜 出 ， 
在 除法 指令 执行 完 后 ，Hi 存放 着 余数 ，Lo 存放 着 商 。 

为 了 处 理 有 符号 整数 和 无 符号 整数 ，MIPS 采用 两 条 指令 : 除 (adiv) 和 无 符号 除 (divu)。 
MIPS 汇编 器 允许 除 指令 使 用 三 个 寄存 器 ， 县 采 用 mfloe 和 mfhi 指令 将 运算 结果 放 人 指定 的 通用 
寄存 器 。 


第 3 章 计算 机 的 算术 运算 . 147 


3.4.5 小 结 


乘法 和 除法 共用 硬件 的 方案 允许 MIPS 提供 一 对 单独 的 32 位 寄存 器 来 支持 乘法 和 除法 运算 。 
图 3-13 汇总 了 MIPS 体系 结构 为 本 方案 所 添加 的 指令 。 
MIPS 汇编 语言 
















add $sl,8s2,8s3 | Ssl-$s2+$s3 | 三 个 操作 数 ;检测 溢出 
立 addi $s1,$s2,100 $sl -gs2 +100 加 常数 ;检测 噬 出 
ET 








一 上 | 


= 
汉 


出 
| 


rr 


Lo =$s2/$s3 
Hi =$s2 mod $s3 ro= 商 ,三 = 余数 


. Lo=$s2/$s3 


从 十 中 获得 用 来 获得 Hi 的 乒 贝 

从 Lo 中 获得 mflo $sl 用 来 获得 Lo 的 拷贝 

3s1 -Memory[ $s2 +20] | 将 一 个 字 从 内 存 中 取 到 寄存 器 中 
et 
取 无 符号 半 字 lhu $s1,20 ($s2) 将 半 个 字 从 内 存 中 取 到 寄存 器 中 
Memory[$s2 +201 -$sl ， | 将 半 个 字 从 寄存 器 中 存 到 内 存 中 
无 符号 字 节 lou $s1,20 ($s2) 。 | $sl =Memory[$s2 +20] | 将 个 字 节 从 内 存 中 取 到 奇 存 器 中 
sb $s1,20 ($s2) | Mermory[$s2 +20] -$s1 | 将 一 个 字 书 从 寄存 器 中 存 到 内 存 中 
$s1 -Memory[$s2 +20] | 取 字 作为 原子 交换 的 前 半 部 


Memory[$s2 +20] =$s1; 
$sl =0 或 1 存 字 作为 原子 交换 的 后 半 部 


5 ET 
AND $s1,8s2,8s3 | $s1-8s2 6 Se3 | 三 个 寄存 器 操 作 数 ; 按 位 
OR $sl,$s2,8$s3 $s1 -gaz | $53 。 | 三 个 守 存 基 避 作 数 ; 按 位 或 
$s1 = ~ ($s2 | $s3) 三 个 寄存 器 操作 数 ; 按 位 或 非 
ANDi $s1,$s2,100 $sl =$s2 & 100 A : 
$s1 =$s2 | 100 常数 按 位 
$s1 =$s2 < <10 根据 常数 左 移 相 
srl $sl,$s2,10 $s1=$s2 > >10 | 根据 常数 右 移 相 


图 3-13 MIPS 核心 结构 
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次 


(Sl < $3) Sel =1, 否则 
$al =0 


条 
针 if( $s2 <100) 8s1 =1; 否则 
$sl <0 


($s2 < $s3) $sl =1， 否则 
$sl :0 


($s2 <100) $sl =1; 否 则 
$sf =0 





和 
不 
转 


图 3-13 ( 续 ) 
为 了 节省 篇 申 ， 没有 给 出 MIPS 体系 结构 的 存储 器 和 寄存 妖 ， 但 增加 了 下 和 Lo 寄存 器 来 支持 乘法 和 除法 。 
在 本 书 文 前 的 MIPS 参考 数据 中 列 出 了 MIPS 机 器 语言 。 





硬件 软件 接口 

MIPS 处 理 喘 除法 指令 忽略 溢出 ， 所 以 需要 软件 来 检测 商 是 吞 溢出。 除了 溢出 ， 除 法 还 可 能 
产生 不 适当 的 计算 : 除数 为 0。 一 些 计算 机 会 分 辨 这 两 种 异常 事件 。 而 间 溢 出 一 样 ，MIPS 软件 
必须 通过 检查 除数 来 确定 是 和 否 会 发 生 此 类 情况 。 

精 解 :一 种 更 快 的 算法 是 在 余数 为 负 时 ， 不 需要 立即 将 除数 加 回去 。 它 只 是 在 下 一 步 简 单 地 将 除数 加 
到 移 位 后 的 余数 上 ， 因 为 (r+d) x2-~-d=rx2+dx2-d=rx2+td。 这 种 不 恢复 (nonrestoring) 除 算法 ， 
每 步 需 要 一 个 时 钟 周期 ， 将 会 在 练习 题 中 给 出 更 多 的 分 析 ， 而 前 面 介绍 的 算法 称 为 恢复 【restoring) 除法 。 
第 三 种 算法 称 为 不 执行 (nonperforming) 除 算法 ， 这 种 算法 在 余数 为 负 时 ， 不 保存 减法 的 结果 。 它 平均 减 
少 了 三 分 之 一 的 算术 操作 。 


3.5 浮 点 运算 
如 果 方 向 错 了 ， 再 快 也 白搭 。 





一 一 美国 谚语 

除了 有 符号 和 无 符号 整数 ， 编 程 语言 也 支持 带 小 数 的 数字 ， 即 数学 上 的 实数 。 如 : 

3. 1415926S$.…，(mi) 

2. 71828.…,，(《e) 

0. 000000001 如 1.0, x10-”( 纳 秒 级 ) 

3 155 760 000。 即 3. 155 76,, x10”( 一 百年 的 秒 数 ) 

请 注意 ， 在 最 后 的 例子 中 ， 那 个 数 并 不 是 小 数 ， 而 是 比 32 位 的 有 符号 整数 还 要 大 的 数 。 这 
和 表达 上 述 例子 中 后 两 个 数 的 记 数 法 称 为 科学 记 数 法 9。 一 个 采用 科学 计数 法 表示 的 数 ， 若 没有 
前 有 寻 零 且 小 数 点 左边 只 有 一 位 整数 ， 则 可 称 为 规格 化 数 ?。 例 如 ，1. 0 。x 10-? 就 是 规格 化 的 科学 


日 “十进制 小 数 点 左边 只 有 一 位 整数 的 记 数 法 。 
与 ”没有 前 导 零 的 浮 点 记 数 法 。 
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计数 ,但 0.1,x10 一 和 10.0。x10- 就 不 是 。 

正如 可 以 用 科学 记 数 法 来 表示 十 进 制 数 那样 ， 我 们 也 可 以 用 科学 记 数 法 来 表示 二 进 制 数 ， 如 ; 

1.0, x27 

为 了 使 二 进 制 数 规格 化 ， 需 要 定义 一 个 基数 ， 这 个 基数 可 用 来 移 位 使 小 数 点 左边 只 保留 一 位 非 
零 数 。 只 有 基数 为 2 才 满 足 要 求 。 因 为 基数 不 是 10， 所 以 我 们 称 这 时 的 小 数 点 为 二 进 制 小 数 点 
(binary point ) 。 

这 类 计算 机 算术 称 为 浮 点 "计算 ， 因 为 其 表示 的 二 进 制 小 数 点 是 不 固定 的 ， 与 整数 相似 。 编 
程 语言 C 用 float 来 表示 这 类 数 。 正 如 科学 记 数 那样 ， 数 被 表示 为 二 进 制 小 数 点 左边 只 有 一 位 非 
堆 数 的 形式 。 在 二 进 制 中 ， 其 格式 为 : 

1l. XWNMMNMNMNNN X 了 

(尽管 计算 机 对 指数 也 同 其 他 数 一 样 表示 为 以 2 为 基 的 形式 , 但 这 里 为 了 简化 记 数 ， 我 们 用 十 进 
制 来 表示 指数 。) 

对 实数 采用 规格 化 形式 的 标准 科学 记 数 法 有 三 个 优点 : 简化 了 浮 点 数 的 数据 交换 ; 简化 了 
浮 点 算术 算法 ; 提高 了 用 一 个 字 存 储 的 数 的 精度 ， 因 为 无 用 的 前 导 零 可 能 占用 的 位 被 二 进 制 小 
数 点 右边 的 有 效 位 替代 了 。 


3.5.1 浮 点 表示 


浮 点 表示 的 设计 者 必须 在 尾数 “位 宽 和 指数 位 宽 之 间 找 出 折 中 的 办 法 ， 因 为 字 的 大 小 是 固 
定 的 ， 有 一 部 分 增加 一 位 ， 则 另 一 部 分 就 要 减少 一 位 。 折 中 是 在 精度 和 表示 范围 间 进 行 权衡 : 增 
加 小 数 部 分 会 增加 表示 精度 ， 而 增加 指数 部 分 会 增加 数 的 表示 范围 。 正 如 我 们 在 第 2 章 中 所 提 到 
的 设计 方针 讲 的 那样 ， 好 的 设计 需要 好 的 折 中 。 

浮 点 数 通常 是 多 个 字 的 宽度 。MIPS 中 的 浮 点 数 表示 如 下 : s 为 浮 点 数 的 符号 (1 表示 负数 )， 
指数 域 为 8 位 宽 〈 包 括 指数 的 符号 位 ) ， 尾 数 域 为 23 位 宽 。 这 种 表示 称 为 符号 和 数值 (sign and 
magnitude) ， 因 为 符号 和 数值 的 位 置 是 相互 分 离 的 。 








29 |28 [27126 [2s 124 |23 |22 |21 2019 1s Tm eis[afsTaluTrole Ts [71eTs14Ts 12TTo 
四 指数 尾数 





1 位 8 位 23 位 


一 般 浮 点 数 表 示 为 这 样 的 形式 ， 
(—-1) xF x2° 

F 为 小 数 域 的 值 ，E 为 指数 域 的 值 。 这 些 域 之 间 具 体 的 关系 后 面 会 详细 讲解 (我 们 将 会 简单 地 
看 到 MIPS 所 做 的 稍 有 技巧 性 的 改变 。) 

浮 点 数 表 示 法 使 MIPS 计算 机 有 很 大 的 数值 表示 范围 ， 可 以 小 到 2 0 x10”， 大 到 2.0。x103。 
但 它 和 无 穷 还 是 不 同 的 ， 所 以 依然 有 可 能 会 因数 太 大 而 不 能 表示 。 因 此 ， 正如 在 整数 运算 中 那样 ， 涪 
”出 中 斯 在 浮 点 运算 中 也 会 发 生 。 注 意 ， 这 里 的 溢出 (上 滋 @) 表示 指数 太 大 而 不 能 在 指数 域 表 示 。 

浮 点 也 会 出 现 一 种 新 的 异常 事件 。 正 如 程序 员 想 要 知道 何 时 他 们 计算 的 数 太 大 而 不 能 表示 
那样 ， 他 们 同样 也 想 知道 一 个 非 零 的 小 数 是 否 会 太 小 而 不 能 表示 ， 任何 一 种 事件 都 会 引起 程序 


二 进 制 小 数 点 不 固定 的 表达 数 的 记 数 法 。 

位 于 浮 点 数 的 尾数 字段 ， 其 值 在 0 和 1 之 间 。 
位 于 浮 点 数 的 指数 字段 ， 表 示 小 数 点 的 位 置 。 
正 的 指数 太 大 而 导致 指数 域 放 不 下 的 情况 。 


四 也 口中 
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给 出 错误 答案 。 为 了 和 上 洲 区 分 开 来 ， 将 其 称 为 下 洲 了。 下 溢 发 生 的 条 件 是 负 的 指数 太 大 而 不 能 


在 指数 域 中 表示 出 来 。 
一 种 减少 上 洲 和 下 洲 的 方法 是 采用 更 大 指数 的 格式 。 在 C 语言 中 称 为 double， 基 于 double 的 
操作 称 为 双 精 度 ” 浮 点 算术 ; 单 精度 浮 点 就 是 前 面 的 格式 。 
双 精 度 浮 点 数 占用 了 两 个 MIPS 字 ， 如 下 所 示 。 其 中 ，s 表示 符号 ， 指 数 域 为 11 位 ， 尾 数 域 


为 52 位 。 


ol sl lel lalalala [ollialn lls 
i 





lalzlnalol9lsl7lslsl413|12|1o 
尾数 


指数 | 
1 位 11 位 20 位 
尾数 ( 续 ) 
32 位 


MIPS 双 精 度 的 表示 范围 从 2.0o x10 “到 2.0,。x10”。 尽 管 双 精度 增加 了 指数 范围 ， 它 主 
要 的 优势 还 是 通过 提供 更 多 的 有 效 位 数 来 实现 更 大 的 表示 精度 。 

这 些 格式 已 经 超出 了 MIPS 体系 结构 。 实 际 上 它们 是 正 EE 754 浮 点 标准 的 一 部 分 ， 从 1980 年 以 
来 的 每 台 计 算 机 都 遵循 该 标准 。 该 标准 既 简 化 了 浮 点 程序 的 接口 ， 又 提高 了 计算 机 算术 的 质量 。 

为 了 将 更 多 的 数据 位 打包 到 有 效 位 数 (significand) 部 分 ，IEEE 754 甚至 隐藏 了 规格 化 二 进 
制 数 的 前 导 位 1。 因 此 ， 在 单 精度 下 ， 数 有 24 位 宽 〈 人 陷 含 的 1 和 23 位 尾数 )， 在 双 精 度 下 为 53 
位 宽 〈1 +52)。 为 了 精确 ， 我 们 用 术语 有 效 位 数 来 表示 24 位 或 者 53 位 的 数 ， 就 是 隐 含 1 加 尾 
数 。 因 为 0 没有 前 导 位 1， 它 的 指数 保留 为 0， 所 以 硬件 就 不 会 将 前 导 位 1 加 到 尾数 上 面 。 

因此 00…00, 代表 0; 其 他 数 的 表示 依然 采用 前 面 的 形式 ， 就 是 加 上 了 隐 含 1; 

(-1) x (1l+F) x2° 
其 中 , 了 表示 的 是 0 和 1 之 间 的 数 ，E 表示 的 是 指数 域 中 的 值 。 如 果 我 们 从 左 到 右 标 记 小 数 为 
sl1，s2，s53，…， 则 数 的 值 为 
(-1) x[l+(slIx22)+(s2x22)+(s3x223) + (4 xx24) + ‘i] X25 

图 3-14 给 出 了 IEEE 754 浮 点 数 的 编码 。IEEE 754 标准 的 其 他 特点 是 用 特殊 的 符号 来 表示 蜡 
常事 件 。 如 软件 可 以 将 结果 设置 成 某 种 格式 来 表示 + o 或 者 -am ， 以 替代 除 0 中 断 ; 最 大 的 指数 
保留 下 来 标识 那些 特殊 符号 。 当 程序 员 打 印 结果 时 ， 程序 会 打印 出 一 个 无 穷 符 号 。( 对 于 有 数学 
训练 的 人 ， 无 穷 的 目的 是 为 了 形成 实数 的 拓扑 闭 集 。) 


单 精 度 





3-14 IEEE 754 浮 点 数 的 编码 
一 个 单独 的 符号 位 来 决定 正 负 。 在 3.5 节 的 精 解 中 描述 了 非 规格 化 数 。 这 个 信息 也 可 以 在 本 书 文 前 的 
MIPS 参考 数据 的 第 4 列 中 找到 。 


昌 。 负 的 指数 太 大 而 导致 指数 域 放 不 下 的 情况 。 
名 ” 浮 点 数 由 两 个 32 位 的 字 表示 。 
嫩 ” 浮 点 数 由 一 个 32 位 的 字 表 示 。 
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IEEE 754 甚至 给 出 了 一 种 表示 无 效 操 作 结果 (如 0/0 或 者 无 穷 减 无 穷 ) 的 符号 一 一 NaN 
( Not a Number) ， 即 非 数 的 意思 。 设 立 NaN 的 目的 是 为 了 让 程序 员 推 迟 程 序 中 的 一 些 测 试 和 决 
定 ， 等 到 方便 的 时 候 才 进行 。 

IEEE 754 的 设计 者 还 希望 浮 点 表示 能 够 容易 地 处 理 整 数 比 较 ， 特 别 是 排序 的 时 候 。 这 就 
是 为 什么 符号 放 在 最 高 位 的 原因 ， 这 样 就 可 以 快速 地 测试 出 小 于 、 大 于 、 等 于 0 的 情况 。( 比 
起 简单 的 整数 分 类 ， 它 稍 显 复杂 ， 因 为 这 种 记 数 法 本 质 上 是 符号 和 数值 的 形式 ， 而 不 是 补 码 
形式 。) 

将 指数 放 在 有 效 数 前 也 能 简化 用 整数 比较 指令 做 的 浮 点 数 分 类 ， 因 为 在 有 着 相同 的 符号 的 
情况 下 ， 指 数 大 的 数 其 值 就 大 。 

负 的 指数 对 简化 分 类 形成 一 个 挑战 。 如 果 我 们 用 补 码 或 者 其 他 的 记 数 法 ， 可 能 会 使 负 指数 
的 高 位 为 1， 从 而 使 一 个 负 指数 显得 是 一 个 大 数 了 。 如 1. 0, x2 ”表示 如 下 : 


国 国 因 国 团 国 因 因 国 四 团团 四 四 因而 四 而 四 四 四 四 加 回回 加 可 四 日 加 四 
or rrr oo oo oo oo oo oo oro 


(需要 注意 的 是 ， 尾 数 中 隐 含 前 导 1。) 而 数 1. 0, x2 ”看 起 来 似乎 是 一 个 较 小 的 二 进 制 数 。 


ols lls lalas la lalala lolo Talo lols Teal slal Tolo Tel Tols Trls Ta1r To 
ooooooooilo oo oo oo oo oo ooooooo. 


因此 希望 记 数 法 能 将 最 小 的 负 指 数 表示 为 00…00,， 而 最 大 的 正 指数 表示 为 11…11,。 这 种 记 
数 法 称 为 带 偏 阶 的 记 数 法 (biased notation ) 。 和 需要 从 带 偏 阶 的 指数 中 减 去 偏 阶 ,才能 获得 真实 
的 值 。 

IEEE 754 规定 单 精度 的 偏 阶 为 127， 所 以 指数 为 - 1， 则 会 表示 为 -1 + 127,。， 即 126。 = 
0111 1110,， 而 +1 表示 为 1+127， 即 128,。= 1000 0000,。 双 精度 的 指数 偏 阶 为 1023。 给 指数 带 
偏 阶 后 ， 浮 点 数 表示 为 










(—1)° x (1 + Fraction) Xx 2EPonent Bis) 

从 而 ， 单 精度 数 的 表示 范围 从 

土 1. 0000 0000 0000 0000 0000 000, x2- 
到 

+1.1111 1111 1111 1111 1111 111, x2'™, 
让 我 们 演示 一 下 浮 点 表示 。 
浮 点 表示 

演示 用 IEEE 754 的 单 精度 和 双 精 度 格 式 来 表示 -0.75o。 


人 安 


-0.75io 也 可 表示 为 


类 


一 3/410 或 者 -3/22% 
它 的 二 进 制 小 数 形式 为 
-11,/2% 或 者 - 0. 11， 
用 科学 记 数 表示 的 形式 为 
-0.11, x2° 
采用 规格 化 的 科学 记 数 ,为 
-1.1,x2" 
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单 精度 的 通用 表达 式 为 


(—-1)” x (1 + Fraction) x 2 ™"™ 2) 


2 时 


所 以 -0.75io 的 单 精 度 二 进 制 格式 为 


pols llr lls la ala ol Tel lols lelalalnTols Tel [els TTsTal To 






olo 1111110|l10000000000000000000000 
1 位 8 位 23 位 
双 精 度 表 示 为 


( -1) x(1 +. 1000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,) X2402 Me) 
ols [als [llals ll [opeTieln lis alslalu lols Tl7 Tols Tels 121 To 
roo oo or oro nooo 


1 
1 位 11 位 20 位 


00000000000000000000000000000000 


32 位 







让 我 们 再 看 反方 向 的 一 个 例子 。 
国史 二 进 制 转 十 进 制 浮 点 
十 进 制 数 如 何 用 单 精度 浮 点 表示 ? 


fol las la ass lala [a la lols TellolsTals alnTols Te 17 Tols Ta 1312 To 
ooooooill oo oo oo oo oo oo or 


符号 位 为 1， 指 数 域 的 值 为 129， 尾 数 域 的 值 为 1x2-?=1/4， 即 0.25。 使 用 基本 公式 ， 
(-1) x (1 +Fraction) x 2 (EP Be) (1)! x (1 +0.25) x2029-027) 
=-1x1.25x2’ 
=—1.25 x4 
=-5.0 
在 下 面 的 部 分 ， 我 们 将 给 出 浮 点 加 法 和 乘法 的 算法 。 其 核心 部 分 是 对 尾数 进行 相应 的 整数 
操作 ， 但 也 需要 额外 的 工作 去 处 理 指 数 部 分 并 对 结果 进行 规格 化 。 我 们 先 给 出 直观 上 的 十 进 制 
算法 ， 然 后 在 图 中 给 出 有 更 多 细节 的 二 进 制版 本 。 
精 解 : 为 了 在 保持 尾数 位 宽 不 变 的 情况 下 增 大 表示 范围 ， 一 些 早 于 IEEE 754 标准 的 计算 机 采用 了 大 于 
2 的 基数 。 例 如 IBM 360 和 370 大 型 计算 机 以 16 为 基数 。 因 此 每 当 IBM 机 的 指数 改变 1 ， 尾 数 就 将 移 4 位 ， 
所 以 基 16 规格 化 数 的 前 导 零 可 能 会 多 达 3 个 ! 也 就 意味 着 有 3 个 有 效 位 要 从 尾数 中 去 掉 ， 从 而 在 浮 点 算术 
精度 上 产生 较 大 的 问题 。 最 近 IBM 大 型 机 也 开始 支持 IEEE 754 标准 。 


3. 5.2 浮 点 加 法 


为 了 说 明 浮 点 加 法 中 的 问题 ， 我 们 将 用 科学 计数 法 表示 的 两 个 数 相 加 :; 9. 999。x 10 + 
1. 610,。x 10 ”。 假 设 我 们 只 能 存储 4 个 十 进 制 有 效 数 和 两 个 十 进 制 指数 。 


步骤 1: 为 了 能 让 两 数 相 加 ， 我 们 需要 将 有 较 小 指数 的 数 向 较 大 指数 的 数 对 齐 ; 
1.610。x10”=0.1610,。x10?" =0. 01610,, x 10! 
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最 右边 的 表示 形式 是 我 们 所 需要 的 ， 因 为 它 和 较 大 的 数 9. 9991。 x 10 的 指数 相同 。 因 此 第 一 
步 要 移动 较 小 数 的 有 效 数 ， 使 其 指数 和 较 大 数 的 指数 相同 。 由 于 我 们 只 能 表示 4 位 十 进 制 数 ， 所 
以 ， 移 位 后 得 到 的 数 为 
0. 016,,。x 10" 
步骤 2: 将 有 效 数 相 加 : 
9. 999 。 
+ 0.016, 


10. 015 。 
和 为 10.015，x 10: 。 
步骤 3: 因为 和 不 是 规格 化 科学 记 数 的 形式 ， 所 以 我 们 需要 调整 
10. 01$,。x 10 =1. 0015,, x 10” 

因此 ， 在 加 法 后 ， 我 们 可 能 需要 对 和 移 位 ， 
将 其 变 为 规格 化 形式 ， 同 时 相应 地 调整 指数 。 
在 这 个 例子 中 是 右 移 ,， 但 是 如 果 一 个 数 为 正 ， 
一 个 数 为 负 ， 则 和 可 能 会 有 许多 前 导 0， 从 而 需 
要 左 移 。 无 论 指数 是 增加 还 是 减少 ， 我 们 都 需 
要 检查 上 洲 或 者 下 溢 一 一 我 们 必须 保证 指数 能 
够 被 固定 位 宽 的 指数 域 所 表示 。 

步骤 4:， 因为 我 们 假设 有 效 数 只 有 4 位 十 进 
制 数 那么 长 (不 包括 符号 位 ) ， 所 以 我 们 需要 
进行 伟人 。 如 果 右 边 多 余 的 数 在 0 和 4 之 间 就 
合 掉 ,如 果 右 边 多 余 的 数 在 5 和 9 之 间 ， 则 加 
1。 数 









1. 比较 两 数 的 指数 ， 将 较 小 数 右 移 直到 
其 指数 与 较 大 数 的 指数 对 齐 









3; 规 格 化 结果 ， i 
数 或 者 左 移 并 相应 地 减少 指数 





1.0015, x 107 
合 人 为 有 4 个 十 进 制 数 有 效 位 的 数 
1. 002,, x 10? 

这 是 因为 第 四 位 右边 的 数 在 5 和 9 之 间 。 
注意 ， 如 果 我 们 不 幸 将 1 加 到 了 一 串 9 上 ， 则 
和 不 能 再 规格 化 ， 我 们 需要 返回 到 步 又 3。 

图 3-15 按照 这 个 十 进 制 例子 给 出 了 二 进 
制 浮 点 加 算法 。 步 又 1 和 步骤 2 和 上 面 例子 讨 
论 的 类 似 : 调整 有 较 小 指数 的 数 ， 使 其 指数 与 
有 较 大 指数 的 数 对 齐 ， 然 后 将 两 个 数 的 有 效 数 
相 加 。 步 又 3 规格 化 结果 ， 并 强制 检查 上 洲 和 
下 溢 。 步 又 3 中 上 滋 和 下 滋 的 检查 依赖 于 源 操 
作 数 的 精度 。 回 忆 一 下 ， 指 数 全 0 保留 下 来 用 图 3-15 浮 点 加 
来 表示 0; 指数 全 1 保留 下 来 标记 指定 的 值 和 正常 的 路 径 是 执行 一 次 步 又 3 和 步 又 4， 但 如 果 合 人 使 
超出 正常 浮 点 数 范围 的 情况 ( 见 3. 5 节 的 精 ”过 为 末 规 格 化 ， 则 需要 重复 步骤 3。 

解 ) 。 因 此 ， 对 于 单 精度 ， 最 大 的 指数 为 127， 最 小 的 指数 为 - 126。 双 精度 则 分 别 为 1023 
和 -1022 。 
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二 进 制 浮 点 加 法 

按照 图 3-15 中 的 算法 ， 党 试 将 0. So 和 -0.4375io 用 二 进 制 相 加 。 

首先 ， 我 们 看 一 下 这 两 个 数 用 规格 化 科学 记 数 法 的 二 进 制 表示 ， 这 里 假设 我 们 使 用 4 位 
精度 : 


0. 5 =1/2,. =1/2,, 

=0. 1, =0. 1, x2° =1. 000, x27! 
-0.4375。 “= -7/16, = -7/2+, 

= -0.0111， = -0.0111 x2” = -1 110, x2 


现在 ， 我 们 按照 如 下 的 算法 执行 : 
步骤 1: 将 有 最 小 指数 的 数 〈-1.11;x2” ) 的 有 效 数 进行 右 移 ， 直 到 其 指数 和 较 大 数 相 匹配 : 
-1.110, x2™” = -0.111,x2-: 
步骤 2: 将 有 效 数 相 加 : 
1.000, x2 +( -0.111, x2) =0. 001, x2-: 
步骤 3: 将 和 规格 化 ， 并 检查 上 滋 称 下 溢 : 
0.001, x 2™ = 0.010, x2” = 0.100, x 2 
= 1.000, x2™ 
因为 127 > -4 -126， 所 以 没有 上 溢 和 下 溢 。( 带 偏 阶 的 指数 为 -4+127， 即 123， 其 在 
最 小 的 指数 1 和 最 大 的 未 保留 的 带 偏 阶 指数 254 之 间 。) 


步骤 4: 会 入 各、 
1. 000, x2™ 
这 个 和 已 经 是 精确 地 用 4 位 来 表示 了 ， 所 以 不 需要 再 做 合 入 。 
这 个 和 是 


1. 000, x2™ =0. 0001000，= 0. 0001, 
= 1721 =1716 =0. 0625 。 
这 就 是 0.5 和 -0.4375 ,的 和 。 
许多 计算 机 会 使 用 硬件 来 尽 可 能 快 地 运行 浮 点 操作 。 图 3-16 给 出 了 浮 点 加 的 基本 结构 示 
意图 。 


3. 5. 3 ” 浮 点 乘法 


首先 ， 我 们 手 算 一 个 十 进 制 乘法 的 例子 ， 其 中 数 用 科学 计数 法 表示 :1. 110,, x 10” x9 200，x 
10”。 假 设 我 们 只 可 以 存储 4 位 尾数 和 2 位 指数 。 

步骤 1: 不 像 加 法 ， 我 们 只 是 简单 地 将 源 操作 数 的 指数 相 加 来 作为 积 的 指数 ， 

新 的 指数 =10+( -5S) =5 

现在 我 们 处 理 带 有 偏 阶 的 指数 并 要 确定 获得 相同 的 结果 : 10 +127 =137, 而 -5+127 = 122 ， 

所 以 
新 的 指数 = 137 + 122 = 259 

这 个 结果 对 于 8 位 的 指数 域 来 说 太 大 ， 所 以 肯定 有 什么 地 方 出 错 了 ! 问题 出 在 偏 阶 上 ， 当 我 

们 将 指数 相 加 时 ， 也 对 偏 阶 实行 了 相 加 : 
新 的 指数 = (10 +127) +(-5+127) = (5+2x 127) = 259 
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右 移 较 小 数 
SG 1 
a 或 左 移 或 右 移 规格 化 


外 


图 3-16 用 于 浮 点 加 的 算术 单元 的 结构 框图 
图 3-15 的 每 步 从 顶 向 下 对 应 到 每 个 方 框 。 首 先 ， 使 用 一 个 小 的 ALU 将 两 个 指数 相 减 来 决定 哪个 指数 大 及 大 
多 少 。 指 数 差 将 控制 三 个 多 路 复 用 器 ; 从 左 到 右 ， 选 择 出 较 大 的 指数 、 较 小 数 的 有 效 数 和 较 大 数 的 有 效 数 。 
较 小 数 的 有 效 数 通过 右 移 后 ， 和 较 大 数 的 有 效 数 用 一 个 大 的 ALU 相 加 。 规 格 化 步骤 将 和 左 移 或 者 右 移 、 同 时 
增加 或 者 减少 指数 。 含 人 产生 最 后 的 结果 ， 这 样 也 有 可 能 需要 再 次 规格 化 ， 然 后 产生 最 后 的 结果 _ 


因此， 当 将 带 偏 阶 的 数 相 加 时 ， 为 了 得 到 正确 的 带 偏 阶 的 和 ， 我 们 需要 将 一 个 偏 阶 从 和 中 减 去 ， 
新 的 指数 = 137 + 122 ~ 127 = 259 - 127 = 132 = (5 + 127) 

5 就 是 我 们 刚 开始 计算 的 实际 指数 。 

步骤 2: 下 面 计算 有 效 数 的 乘法 : 


10212000 
每 个 源 操作 数 十 进 制 小 数 点 右边 都 有 三 位 ， 所 以 积 的 尾数 的 十 进 制 小 数 点 在 从 右边 数 第 6 
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位 处 ; 
10. 212000,, 
假设 我 们 只 可 以 保留 十 进 制 小 数 点 右边 三 位 数 ， 则 积 为 10. 212,。 x 10’。 
步骤 3: 这 个 积 是 未 规格 化 的 ， 所 以 我 们 需要 
开始 
人 i ) 
10. 212,, x 10 = 1. 0212,, x 10° , 

因此 ， 在 乘法 后 ， 积 需要 右 移 一 位 来 变 成 规格 。。 | ” 锋 忆 丰 二 个 信和 
化 形式 ， 同 时 指数 加 1。 此 刻 ， 我 们 要 检查 上 溢 和 新 的 带 偏 阶 的 指数 
下 滋 。 当 两 个 源 操作 数 都 很 小 时 一 一 两 者 都 有 非常 
大 的 负 指数 时 ， 就 有 可 能 发 生 下 溢 。 


步骤 4: 因为 之 前 我 们 假设 有 效 数 只 有 4 位 宽 
(不 包括 符号 )， 所 以 我 们 必须 对 结果 进行 使 
人 。 将 







3. 如 果 需 要 规格 化 积 ， 右 移 
并 相应 地 增加 指数 


1. 0212,, x 10° 
售 人 为 只 有 四 位 的 有 效 数 
1.021,0 x 10° 
步骤 5: 积 的 符号 取决 于 原始 源 操作 数 的 符 


号 。 当 它们 相同 时 ， 符 号 为 正 ; 否则 ， 符 号 为 负 。 


+1.021,。x10 
在 加 法 算法 中 ， 和 的 符号 由 有 效 数 相 加 来 决 各 全 
定 ， 但 在 乘法 中 ， 积 的 符号 由 源 操作 数 来 决定 。 规格 化 ? 
再 一 次 ， 如 图 3-17 所 示 ， 二 进 制 浮 点 乘 的 步 
又 和 我 们 刚 做 完 的 步骤 类 似 。 首 先 ， 我 们 将 带 偏 阶 
的 指数 相 加 ， 并 减 去 一 个 偏 阶 ， 获 得 积 的 指数 。 接 
着 是 有 效 数 的 乘法 ， 紧 跟 一 个 可 选 的 规格 化 步 又。 





这 


5. 如 果 源 操作 数 符号 相同 ， 则 
”结果 符号 为 正 ， 否 则 为 负 





指数 的 大 小 用 来 检查 上 溢 和 下 滋 ， 然 后 对 积 进行 舍 

入。 当 舍 人 引起 进一步 的 规格 化 时 ， 我 们 需要 再 次 

检查 指数 的 大 小 。 最 后 ， 如 果 源 操作 数 的 符号 相 图 3-17， 浮 点 生 法 

并 ， 就 将 符号 位 设 为 1 ( 积 为 负 ); 如 果 相 同 ， 设 。 正常 的 路 径 是 执行 -次 步骤 3 和 步 又 4 ， 但 如 果 全 
为 0〈 积 为 正 ) 。 人 使 积 变 为 非 规格 化 ， 则 需要 重复 步 又 3。 


二 进 制 浮 点 乘法 
按照 图 3-17 中 的 步骤 ， 试 计算 0. 5 和 -0.4375 ,的 乘积 。 
在 二 进 制 下 ， 也 就 是 将 1.000, x2 和 -1.110, x2 -的 相 乘 。 
步骤 1: 将 不 带 偏 阶 的 指数 相 加 : 
ee 
或 者 ， 使 用 带 偏 阶 的 表达 ， 
(-1+l27)+(-2+127) -127 = (-1-2)+(127 +127 -127) =-3+127 = 124 
步骤 2: 将 有 效 数 相 乘 : 
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1110000， 
积 是 1. 110000, x2 7， 但 是 我 们 需要 保存 4 位 ， 所 以 为 1. 110, x2 
步骤 3: 现在 我 们 检查 积 以 确保 其 是 规格 化 的 ， 然 后 检查 指数 以 确定 上 洲 和 下 溢 是 否 发 生 。 
这 个 积 已 经 是 规格 化 的 ， 并 且 ， 因 为 127 宇 -3 宇 -126， 所 以 没有 上 滋 和 和 下 溢 。( 使 用 带 偏 阶 的 
表达 ，254 宇 124 宇 1， 所 以 指数 域 可 以 表达 。) 
步骤 4: 对 积 侈 入 没有 使 其 发 生变 化 : 
1.110, x2 一 
步骤 35: 因为 初始 的 源 操 作 数 的 符号 相 异 ， 所 以 积 的 符号 为 负 。 因 此 ， 积 为 
-1.110, x2™ 
为 了 检查 结果 ， 将 其 转化 为 十 进 制 : 
~1.110, x2”= -0.001110, = -0.00111, = -7/23 = -7/32,, = -0.21875 ， 
而 0.$o 和 -0. 4375,。 的 积 确 实 是 -0.2187S，。 


3.5.4 MIPS 中 的 浮 点 指令 


MIPS 有 如 下 指令 来 支持 正 EE 754 的 单 精 度 和 双 精 度 格式 : 
。 浮 扩 单 精度 加 (aqdq.s) 和 双 精 度 加 (aqq.q) 
。 浮 点 单 精度 减 (sub.s) 和 双 精 度 减 ( sub.d) 
浮 点 单 精 度 匀 (mul.s) 和 双 精 度 攻 〈mul.d) 
浮 点 单 精度 除 (div.s) 和 双 精 度 除 (div.a) 
浮 点 单 精度 比较 (c.x.s) 和 双 精 度 比较 ( c.x.d) ， 其 中 ，x 可 能 是 等 于 (eq) 、 不 等 于 
(neq)、 小 于 (1t)、 小 于 等 于 (le)、 大 于 (gt) 或 大 于 等 于 (ge) 

。 浮 点 比较 为 真 跳 转 (bclit) 和 学 点 比较 为 假 跳 转 (bc1f) 

浮 所 比较 根据 比较 条 件 ， 将 比较 结果 设 为 真 或 者 假 ， 然 后 浮 点 跳 转 根据 比较 结果 条 件 决 定 
是 否 跳 转 。 

MIPS 设计 增加 了 单独 的 浮 点 寄存 器 一 一 称 为 $f0, $ft1, $f2,… 一 一 用 于 单 精度 及 双 精 度 。 
因此 ， 也 有 单独 的 针对 浮 点 寄存 器 的 存 和 取 指 令 ，Lwcl 和 swc1。 浮 扣 数据 传送 的 基 寄 存 器 仍然 


采用 整数 寄存 器 。 从 内 存 载 人 两 个 单 精度 数 ， 将 其 相 加 ， 然 后 再 将 和 存 人 内 存 的 MIPS 代码 可 能 
是 这 样 的 : 





lwel $fE4,x {$sp) #Load 32-~bit F.P. number into F4 
lwel $f6,Yy ($sp) #Load 32-bit F.P. number into Fé 
add.s $f2, $f4, $f£6 #F2 = F4 + F6 single precision 
swel $f2 ,z ($sp) #Store 32-bit F.P. number from F2 


双 精 度 寄存 器 是 一 组 单 精度 寄存 器 的 偶数 - 奇数 对 ， 并 使 用 偶数 寄存 器 编号 作为 其 名 称 。 因 此 ， 
一 对 单 精度 寄存 器 $f2 和 $f3 形成 一 个 双 精 度 寄存 器 ， 称 为 $f£2 。 

图 3-18 汇总 了 本 章 介绍 过 的 MIPS 体系 结构 中 的 浮 点 部 分 ， 其 中 为 支持 浮 点 而 增加 的 部 分 用 
加 粗 标 记 。 类 似 于 第 2 章 中 的 图 2-19， 图 3-19 给 出 了 这 些 指令 的 编码 。 
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MIPS 学 点 操作 数 









Memory [0]， 仅仅 被 数据 传输 指令 访问 。MIPS 使 用 字 节 地 址 ， 所 以 连续 的 
Memory [4]，.. ， 字 地 址 相差 4。 存储器 用 来 保存 像 数 组 这 样 的 数据 结构 和 在 过 程 
Memory [4294967292 ] 调用 中 换 出 的 寄存 器 


MIPS 评点 汇编 语 言 


名 


32 个 浮 点 寄存 器 


2” 个 存储 字 













































$f2 ~ $f4 x $56 | 浮 点 乘 ( 单 精度 ) | 











人 lwcl $f1,100 ($s2) | $f1= 存 储 [ $s2 +100] 宙 
数据 传输 
从 泽 点 寄存 评 中 存 字 _ | 32 位 的 数据 传 给 存 
swcl $f1,100 ($s2) | 存储 [ $s2 +100] = $f£1 ] 储 器 
> 二 如 果 (cond ==1) 如 果 浮 点 标志 为 真 则 


| 
训 

bp 3 2 池 |3 hr , 

菇 盖 

头 湖 和 

4 

切 女 

要 

R ND 

. | ji 

中 中 

| | | 

a 贡 









BE i 如 果 (cond ==0) | “如 果 浮 点 标志 为 假 则 
浮 点 标志 假 则 跳 转 |bclf 25 中 至 PC +4 +100 执行 PC 相关 联 的 跌 转 
淫 点 单 精度 比较 (eq， 


如 果 ( $f2 < $4) 浮 点 单 精度 比较 ， 如 
ne, lt, le, gt, ge) Clts $f2, $54 则 cond =1， 否则 cond =0| 果 小 于 则 置 cond 


浮 点 双 精 度 比 较 (eq， 如 果 { $f2 < $f4) 浮 点 双 精 度 比较 ， 如 
ne, lt, le, gt, ge) lea Se2,se 和 cond =1; 否则 cond =0| 果 小 于 则 置 cond 


MIPS 浮 点 机 器 语言 


条 件 跳 转 








































; 
0 ， 






aadQ $f£2, $f4, $f£6 
sub.d $f2, $f4, $f6 
ml.d $f2, $f4, $f6 


div.d $f2, $f4, $f6 


: 多 
$ 
后 
3 
F 
和 


pk 
Jak 


车 
按 
nn 
| 
CA bk 
| 
[看 
EF 
全 
上 
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[me 
> 
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pk 
bo | 
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订 
全 

PP 
[十 
hk 
心 





ms 


c lt.d $f2, $f4 
所 有 MIPS 指令 都 是 32 位 宽 










jt 
9 
fk 
上 





a 
这 


5 位 6 位 


图 3-18 以 前 介绍 过 的 MIPS 浮 点 体系 结构 
附录 B. 10 有 更 详细 的 介绍 。 这 个 信息 也 可 以 在 本 书 文 前 的 MIPS 参考 数据 的 第 2 列 里 找到 。 
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28 - .26 
31.~29 


Ee 
oD 
oo 


1 (001 ) 

2 (010) | TB | BEt 
3 (| 
4(10) | ip 11 
TREE 


6 (110) | lwco 
7 (ID) | swco 


op (31: 26) =010001 (FIiPt)}, (rt (16: 16) =0=>¢c=f, rt (16. 16) =1=>c= {) ,rs 
23 ~2] 


2 (010 3 (Ol1l 4 (100) 5 (101) 6 (110) 


om i ee 
一 
0 |r| rm | | | | | | | 
LI LT LT 


op (31: 26) =010001 (FiPt)，( 上 面 的 有 19000 =0=>f=s; 10001 =0=>f=G)，fonct { 


0) or [opr ar lov | ar er rr 
CD | 
200 | | 

























al TH | 一 
oo jses ee | el | 
som 





图 3-19 MIPS 浮 点 指令 编码 

标记 是 按照 行 和 列 给 出 域 值 。 例 如 ， 在 图 的 顶端 部 分 ， 在 第 4 行 (指令 的 31 ~29 位 为 100,) 和 第 3 列 ( 指 
令 的 28 ~26 位 为 011,) 可 以 发 现 lw， 所 以 op 域 (31 ~26 位 ) 相应 的 值 为 100011,。 带 下 划 线 意味 着 该 域 用 
于 其 他 地 方 。 例 如 ， 在 第 2 行 第 1 列 的 FIPt (op =010001; ) 定义 在 图 的 底 端 。 因 此 ， 在 图 底部 第 0 行 第 1 列 的 
sub.f 意味 着 funct 域 (指令 的 5 ~0 位 ) 为 000001, 且 op 域 (31 ~26 位 ) 是 010001,。 注 意 在 图 的 中 间 给 出 的 
5 位 的 rs 域 ,决定 了 操作 是 单 精度 《f=s， 所 以 rs = 10000) 还 是 双 精 度 (f =d， 所 以 B=10001)。 类 似 地 ， 
指令 的 16 位 决定 了 指令 bcl.c 是 测试 为 真 (16 位 =1 = >bc1l.t) 还 是 为 假 (16 位 =0 = > bc1.f)。 加 粗 的 指 
令 是 在 第 2 章 或 者 本 章 描述 过 的 ， 附 录 B 给 出 了 全 部 指令 。 这 个 信息 也 可 以 在 本 书 文 前 的 MIPS 参考 数据 的 第 
2 列 里 找到 。 


硬件 软件 接口 

在 支持 浮 点 算术 方面 ， 体 系 结构 设计 者 面临 着 一 个 问题 : 是 否 和 整数 指令 使 用 相同 的 寄存 
器 ， 或 者 为 浮 点 增加 一 组 专用 的 寄存 器 。 因 为 程序 通常 对 不 同 的 数据 执行 整数 和 浮 点 操作 ， 单 独 
的 寄存 器 会 稍微 增加 程序 中 要 执行 的 指令 数目 。 主 要 的 影响 是 需要 建立 一 组 单独 的 用 于 浮 点 寄 
存 器 和 内 存 之 间 传 送 数据 的 指令 。 

单独 的 浮 点 寄存 器 的 好 处 是 倍增 了 寄存 器 数目 而 不 需要 在 指令 格式 中 增加 更 多 的 位 数 ， 同 时 因 
为 使 用 了 相互 独立 的 整数 和 浮 点 寄存 器 堆 而 倍增 了 寄存 器 带宽 ， 另 外 ， 还 可 以 量 身 定做 针对 浮 点 的 
寄存 器 ; 例如 ， 一 些 计算 机 将 寄存 器 中 各 种 大 小 的 源 操作 数 转 化 为 一 种 单一 的 内 部 格式 。 
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将 浮 点 C 程序 编译 为 MIPS 汇编 代码 
将 华氏 温度 转 为 摄氏 温度 : 
Float f2c (float fahr) 


{ 
return((5.0/9.0)* (fahr -32.0)); 


} 
假设 浮 点 变量 fahr 存放 在 $f12 中 ,结果 存放 在 $f0 中 。( 不 像 整数 寄存 器 ， 浮 点 寄存 器 0 也 
可 以 存储 数据 。) 那么 MIPS 汇编 代码 是 什么 ? 
我 们 假设 编译 器 将 三 个 浮 点 常数 放置 在 内 存 中 ， 并 且 可 以 用 全 局 指针 $gp 很 容易 地 获得 。 
首先 前 两 个 取 数 指令 将 常数 5.0 和 9.0 载 入 浮 点 寄存 器 : 


f2cC， 
lwcl $f16,const5 ($gp)#$f16 =5.0 (5.0 存在 内 存 中 ) 
Twecl $f19,const9 (8$gp)#$t18 =9.0 (9.0 存在 内 存 中 ) 


然后 相 除 得 到 分 数 5. 079. 0: 
div.s $f£16, $f16, $f18 #$f16 =5.0/9.0 


(许多 编译 器 在 编译 的 时 候 就 做 了 5.0 除 以 9.0 的 操作 ， 并 将 常数 5.0/9.0 存 入 内 存 ， 从 而 在 运 
行 的 时 候 避 免 做 除法 。) 下 面 ， 我 们 将 常数 32.0 载 入 ， 然 后 将 其 从 fahr ($f12) 中 减 去 : 


lwcl $f18,const32 ($aqp} #$f18 =32.0 


sub.s $f18, $f12, $f18 #$f£18 = fahr -32.0 

最 后 ,我 们 将 两 个 中 间 结 果 相 乘积 作为 返回 结果 放 在 人 $f0 中 ， 然 后 程序 返回 
mul.s $f0, $f16, $f18 #$£0 =(5/9)* (fahr - 32.0) 
jr $ra # 反 回 


现在 ， 让 我 们 做 浮 点 矩阵 操作 ， 其 代码 在 科学 计算 程序 中 是 常见 的 。 
将 二 维 矩 阵 的 浮 点 C 程序 编译 为 MIPS 
许多 浮 点 计算 都 采用 双 精 度 。 现 在 做 矩阵 乘法 X= 义 +Y*Z， 其 中 XX、Y、Z 都 是 32 x32 的 炬 阵 ， 
void mm (double x[ Jj[] ,double y[ ][] ,double z[ J[1) 
{ 
int i,j ,Kk; 
for (i=0;i! =32;i=i+1) 
for{j=0;j! =32;j =j +1) 
for (K=O0;k! =32;k=k+1) 
x[i][j3] =x[i][j] +y[i][k]* z[k][j]; 
} 
数组 的 开始 地 址 都 是 参数 ， 存 在 $a0、$al、$a2 中 。 假设 整数 变量 分 别 存在 $s0、$sl、 
$s2 中 。 这 段 程序 的 MIPS 汇编 代码 是 什么 了 


pa i ' 
答案 


注意 到 x[i][j] 处 于 上 面 循环 的 最 里 面 。 因为 循环 变量 是 kx， 不 影响 x[ i][j]， 所 以 我 们 
可 以 避免 在 每 次 迭代 时 载 入 和 存储 x[i][j]j]。 相 反 。， 编译 器 每 次 在 循环 外 将 x[i][j] 载 入 一 个 


寄存 器 ， 然 后 将 y[ i][k] 和 和 z[k][j] 的 积累 加 到 这 个 寄存 器 里 ， 在 最 里 层 的 循环 结束 后 将 和 存 
入 x[i][jj]。 
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为 了 保持 代码 简洁 ， 我 们 使 用 汇编 语言 的 伪 指 令 1i (其 将 一 个 常数 载 入 一 个 寄存 器 ) 、1.q 
和 s.d (汇编 器 将 其 变 为 一 对 数据 传送 指令 、lwcl 和 swcl， 向 一 对 浮 点 寄存 器 传送 数据 )。 
程序 段 首先 将 循环 结束 值 32 存 入 一 个 临时 寄存 器 中 ， 然 后 初始 化 循环 变量 : 


TI 。。 
li $t1,32 #$tl =32 ”( 行 大 小 /循环 终止 ) 
1i $s0,0 #i =0; 初始 化 第 一 个 循环 
L1: li $s1,0 #j =0; 开始 第 二 个 循环 
L2 : li $s2,0 #K=0; 开始 第 三 个 循环 


要 计算 x[i][j]」 的 地 址 ， 我 们 首先 要 知道 一 个 32 x32 的 二 维系 阵 是 如 何在 内 存 中 存储 的 。 
正如 你 所 料 ， 它 的 排 布 如 同 32 个 有 32 个 元 素 的 一 维 矩 阵 。 所 以 获得 我 们 需要 的 元 素 的 第 一 步 是 
跳 过 第 斌 个 “一 维和 矩阵” 或 者 第 工行 。 因 此 ， 我 们 用 首 维 的 索引 乘 以 行 的 大 小 ，32。 因 为 32 是 
以 2 为 底 的 指数 值 ， 所 以 我 们 可 以 用 移 位 来 替代 : 


s11 $t2 , $s0 ,5 #$t2 = ix 2”(x 的 行 大 小 ) 
现在 我 们 加 上 第 二 维 的 索引 来 获得 我 们 想 要 的 那 行 的 第 j 个 元 素 : 
addu $t2, $t2,$sl #$t2 =* 行 大 小 +] 


为 了 将 这 个 和 转化 为 按 字 市 的 索引 ， 我 们 给 它 乘 上 矩阵 元 素 所 占 的 字 节 大 小 。 因 为 每 个 元 
素 都 是 双 精 度 的 ， 所 以 占 了 8 个 字 节 ， 我 们 用 左 移 3 位 来 代替 : 


s11 $t2, $t2 ,3 #$t2 =[i][j] 的 字 节 偏 移 量 


下 面 我 们 将 这 个 和 加 上 x 的 基地 址 ， 得 到 x[i][jj] 的 地 址 ， 然 后 将 双 精 度数 x[i][j] 载 入 
到 $f4 寄存 器 中 : 


addu $$t2, $a0,$t2 #$t2 =x[i1[j|] 的 字 节 地 址 


1.d $f4 ,0 ($t2) #$f4 =8 个 字 节 的 x[ i][j] 
接着 的 5 条 指令 类 似 于 刚才 的 5 条 : 计算 双 精 度数 z[k][j] 的 地 址 ， 然 后 将 其 载 入 。 
L3; sll $t0, $s2,5 #$t0 =k* 25 (z 的 行 大 小 ) 
addu $t0, $t0, $sl #$t0 =k* 行 大 小 + 
s11 $t0 ，$t0 ,3 #$t0 =[ kj[j3] 的 字 节 偏 移 量 
addu $$t0, $a2, $t0 #$t0 =z[ kj[ jj 的 字 节 地 址 
1.d $f£16,0 ($t0) #$f16 =8 个 字 节 的 z[k][j] 
类 似 地 ， 下 面 的 5 条 指令 像 刚 才 的 5 条 一 样 : 计算 双 精 度数 y[ij[kj] 的 地 址 ， 然 后 将 其 载 入 。 
s11 $t0, $s0,5 #$t0 =i* 2”(y 的 行 大 小 ) 
addu  $t0, $t0,$s2 #$t0 =i* 行 大 小 +k 
s11 $t0, $t0 ,3 #$t0 = [i][kj] 的 字 节 偏 移 量 
addu  $t0,$al, $to #$t0 =y[i][x] 的 字 节 地 址 
1.a $f£18,0 ( $t0) #$f18 =8 个 字 节 的 y[ i][k] 


现在 已 经 载 入 了 所 有 的 数据 ， 我 们 终于 可 以 做 一 些 浮 点 操作 了 1 我 们 将 分 别 存在 $f18 和 
$f16 中 的 y、z 的 元 素 相 乘 ， 然 后 累加 到 $f4 中 。 


mul.d $f£16, $f18, $f16 #$f16 =y[i]j[k]* z[x][j] 
add.d $f4, $f4, $f16 #$£4=x[i][j] +y[i][k]* z[k][j] 


最 后 的 部 分 将 循环 变量 k 加 1， 如 果 索 引 值 没 到 32， 则 再 次 返回 循环 。 如 果 到 了 32， 则 结束 
最 里 层 的 循环 ， 将 放 在 $f4 中 的 累加 和 存 入 x[ i][j]。 


addiu $sl, $s2,1 # 串 Kk K+1 
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bne $s2, $t] ,L3 #if (k! =32)go to L3 
s.d $f4 ,0 ($t2) #x[i][j}]= $f£4 


类 仪 地 ， 最 后 四 条 指令 增加 中 间 和 最 外 层 的 循环 变量 ， 如 果 没 有 到 32 则 返回 循环 ， 和 否则 在 
到 达 32 后 退出 循环 。 


addiu $sl,$sl,l # 叫 3 = 十 1 
bne $s1 ，$t1 , 工 2 #if (j ! =32)go to 工 2 
addiu $s0,$s0,1 # 串 =i+1 
bne $s0,$t1,Ll #if (i! =32)go to Ll 


精 解 上 面 例 子 中 的 阵列 排 布 ， 称 为 行 主 序列 ， 用 于 许多 C 和 其 他 编程 语言 中 。 但 Fortran 采用 的 是 列 
主 序列 ， 即 阵列 是 一 列 一 列 地 存储 。 

精 解 : 32 个 MIPS 浮 点 寄存 器 中 ， 只 有 16 个 能 用 于 双 精 度 操 作 : $f0, $f2, $f4,... ,$f30。 计 算 
中 ， 双 精度 使 用 了 成 对 的 单 精度 寄存 器 。 奇 数 编号 的 浮 点 寄存 器 只 是 载 人 和 存储 64 位 浮 点 数 的 右 半 部 分 。 
MIPS-32 给 指令 集 增加 了 1.9 和 s.a 指令 。MIPS-32 也 为 所 有 浮 点 指令 增加 了 “ 单 精 度 配对 ” (paired sin- 
gle) 版 本 ， 这 里 每 个 单 指令 能 够 对 两 个 32 位 的 源 操作 数 并 行 执行 浮 点 操作 ， 这 两 个 32 位 的 源 操作 数 存 
在 64 位 的 寄存 器 中 。 例 如 ，adq.ps $f0, $f2,$f4 等 价 于 adq.s $f0, $f2, $f4 和 add.s $f1, $f3 ， 
$Ef5。 

精 解 : 将 整数 和 浮 点 寄存 器 分 开 的 另外 一 个 原因 是 在 20 世纪 80 年 代 的 处 理 器 还 没有 足够 的 晶体 管 将 
浮 点 单元 和 整数 单元 放 在 一 个 芯片 上 。 因 此 ， 浮 点 单元 ,包括 浮 点 寄存 器 ， 只 是 一 个 备 选 的 辅助 芒 片 。 这 
个 可 选 的 加 速 芯片 称 为 协 处 理 器 。 按 首 字 母 缩写 的 MIPS 的 浮 点 load 指令 lwcl 的 意思 是 载 人 一 个 字 到 协 处 
理 器 1， 浮 点 单元 。( 协 处 理 器 0 处 理 虚拟 内 存 ， 第 $ 章 对 其 进行 描述 。) 自 20 世纪 90 年 代 早 期 ， 微 处 理 器 
已 经 将 浮 点 单元 和 其 他 功能 单元 集成 在 一 个 芯片 上 。 因 此 ， 协 处 理 器 和 加 速 器 等 术语 已 经 过 时 了 。 

精 解 : 正如 3.4 节 提 到 的 ， 加 速 除法 比 乘法 更 有 挑战 性 。 除 了 SRT， 还 有 一 种 利用 快速 乘法 器 的 技术 ， 
称 为 牛顿 迄 代 ， 它 将 除法 变换 为 通过 寻找 函数 的 零点 来 求 倒数 1/x， 然 后 将 其 乘 以 另 一 源 操 作 数 。 如 果 不 
计算 更 多 的 位 ， 和 迭代 技术 是 无 法 进行 正确 伟人 的 。 如 了 的 一 款 芯 片 通过 计算 倒数 更 多 有 效 位 的 方法 来 解决 
这 一 问题 。 

精 解 : java 在 定义 浮 点 数组 类 型 和 操作 时 遵循 正 EE 754 标准 。 因 此 ， 可 以 更 好 地 生成 第 一 个 例子 中 的 
代码 ， 是 一 种 经 上 典 的 将 华氏 温度 转换 为 摄氏 度 的 方法 。 

第 二 个 例子 里 使 用 了 多 维和 矩阵 ， 不 被 Java 显 式 支持 。Java 允许 在 数组 中 帷 套数 组 ， 但 是 不 支持 像 C 中 
的 多 维和 矩阵 ， 每 个 数组 可 能 有 自己 的 长 度 。 像 第 2 章 中 的 那些 例子 , 第 二 个 例子 的 Java 版 本 需要 大 量 的 代 
码 来 进行 数组 的 边界 检查 ， 包 括 在 行 访问 后 对 新 的 长 度 进 行 计算 。 它 可 能 还 需要 检查 对 象 引 用 是 否 非 空 。 


3.5.5 算术 精确 性 


个 像 整 数 那样 可 以 精确 地 表示 在 最 大 数 和 最 小 数 之 间 的 所 有 数 ， 浮 点 数 通常 是 一 个 无 法 表 
示 的 数 的 近似 。 原 因 是 ,假定 在 0 和 1 之 间 ， 实 数 就 有 无 穷 多 个 ， 而 双 精 度 最 多 可 以 精确 表示 
2 个 。 我 们 能 做 到 最 好 的 就 是 给 出 最 接近 实际 数 的 浮 点 表示 。 因 此 ，IEEE 754 提供 了 几 种 舍 入 
模式 来 供 程序 员 选 择 他 们 想 要 的 近似 策略 。 

伟人 听 起 来 很 简单 ， 但 它 需 要 硬件 支持 在 计算 中 产生 更 多 的 有 效 位 。 在 前 面 的 例子 中 ， 我 们 
对 中 间 结 果 占 有 多 少 位 未 做 介绍 ， 但 很 明显 的 是 ， 如 果 每 个 中 间 结 果 都 截 短 成 准确 的 位 数 ， 就 没 
法 做 舍 人 了 。IEEE 754 因此 在 中 间 计 算 中 ， 右 边 总 是 多 保留 两 位 ， 分 别称 为 保护 位 ?和 会 入 位 9。 
让 我 们 用 一 个 十 进 制 的 例子 来 说 明 它 们 的 作用 。 


曲 在 浮 点 数 中 间 计算 中 ， 在 右边 多 保留 的 两 位 中 的 首位 ; 用 于 提高 含 人 精度 。 
© 在 浮 点 数 中 间 计 算 中 ， 在 右边 多 保留 的 两 位 中 的 第 二 位 ;使 浮 点 中 间 结 果 满足 浮 点 格式 ， 得 到 最 接近 的 数 。 
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使 用 保护 位 来 使 入 
将 2.56。x10 和 2.34ox10 相 加 ， 假 设 我 们 有 3 位 十 进 制 尾数 。 首先 使 用 保护 位 和 含 入 位 
将 其 舍 入 到 只 有 三 位 尾数 的 最 近 数 ， 然 后 不 用 保护 位 和 舍 入 位 再 做 一 次 〈 舍 入 ) 。 
首先 我 们 右 移 较 小 数 以 对 齐 指数 ， 所 以 2.561i。x10 变 为 0.02561。x10”。 因 为 有 了 保护 位 和 
全 入 位 ， 所 以 当 我 们 对 齐 指数 时 可 以 表示 两 个 最 低位 。 保 护 位 为 5 而 含 入 位 为 6。 求 和 : 
2. 3400 ， 
+ 0.02536 ， 
2.3656， 
因此 ， 和 为 2.36561。x10 。 因 为 需要 含 入 掉 两 位 ， 所 以 我 们 需要 以 50 为 分 水 岭 ， 在 其 值 为 0 到 
49 之 间 时 舍 穆 ， 在 51 到 99 之 间 时 向 上 合 入 。 向 上 伟人 这 个 和 ， 变 为 2.37,，x10?。 
在 计算 中 ,在 没有 保护 位 和 会 入 位 的 情况 下 使 入 掉 两 位 。 新 的 和 和 为. 
2. 34 ， 
+ 0.02 
2.36 ， 
答案 是 2.36ex10 ， 比 上 面 的 结果 在 最 低位 上 少 1。 
因为 最 糟糕 的 情况 是 实际 的 数 在 两 个 浮 点 表示 的 中 间 ， 浮 点 的 精确 性 通常 是 用 尾数 的 最 低 
位 上 有 多 少 位 的 误差 来 衡量 。 这 种 衡量 称 为 尾数 最 后 位 〈units in the last place) 的 数目 ， 即 
ulp  。 如 果 一 个 数 在 最 低位 上 少 2， 则 称 其 少 了 2 个 ulp。 在 没有 上 溢 、 下 溢 或 无 效 操作 异常 的 情 
况 下 ， 正 EE 754 保证 了 计算 机 使 用 的 数 的 误差 都 在 半 个 ulp 以 内 。 
精 解 : 尽管 上 面 的 例子 实际 只 多 需要 一 位 ,但 乘法 需要 两 位 。 一 个 二 进 制 乘积 可 能 有 一 位 前 导 0; 因 
此 ， 规格 化 步 双 必须 将 积 左 移 一 位 。 这 个 移 位 会 将 保护 位 移 人 积 的 最 低位 ， 留 下 含 人 位 来 精确 地 伟人 乘积 。 
IEEE 754 有 四 种 伟人 模式 : 总 是 向 上 舍 人 (向 +% ) ， 总 是 向 下 含 人 〈 向 - w )， 截断 合 人 ， 
癌 最 午 近 的 偶数 伟人 。 最 后 一 种 模式 给 出 了 当 数 值 在 中 间 时 如 何 去 做 。 美 国 国税 局 ( IRS) 也 许 
为 了 自身 的 利益 ， 总 是 将 0. 50 美元 向 上 舍 入 。 一 种 更 公平 的 办 法 是 : 一 半 时 间 里 使 用 向 上 使 入 ， 
万 一 半 时 间 里 使 用 向 下 售 人 。IEEE 754 处 理 这 种 中 间 情 况 的 方法 是 如 果 最 后 一 位 是 奇数 ， 就 加 
1; 如 果 是 偶数 ， 则 截 去 。 这 种 模式 总 是 在 中 间 情 况 下 将 最 低位 设 为 0， 正如 伟人 模式 的 名 称 叫 
的 那样 。 这 种 模式 是 用 得 最 多 的 ， 而 且 是 唯一 被 Java 支持 的 模式 。 
使 用 额外 的 会 入 位 的 目的 是 为 了 让 计算 机 获得 相同 的 结果 ， 就 如 同 是 先 以 无 穷 的 精度 计算 
中 间 结 果 ， 然 后 执行 伟人 那样 。 为 了 支持 这 个 目 标 并 按 向 最 靠近 的 偶数 合 人 ，IEEE 754 标准 在 
保护 位 和 会 人 位 之 后 还 有 一 位 粘贴 位 (sticky bit) ; 当 会 入 位 右边 的 数 非 零 时 将 它 置 1。 粘 贴 位 
可 以 让 计算 机 在 会 和 时， 能 够 区 分 0. 50. . . 00,。 和 0. 50... 01,,。 
粘贴 位 可 能 被 置 1， 例 如 ， 在 加 法 中 ， 当 较 小 数 右 移 时 就 可 能 这 样 。 假设 在 前 面 的 例子 里 我 
们 将 5.0lo x10 和 2. 34u x10: 相 加 。 即 使 有 保护 位 和 含 人 位 ， 我 们 将 0. 0050 和 2. 34 相 加 ， 得 
到 2. 3450。 粘 贴 位 会 被 置 1， 因 为 右边 是 非 零 的 。 假设 没有 粘贴 位 来 记 住 是 否 有 1 被 移 走 ， 我 们 
会 假设 这 个 数 等 于 2. 345000. .. 00 然后 按 向 最 靠近 的 偶数 含 人 得 到 2. 34。 使 用 粘贴 位 记 住 这 个 数 
是 大 于 2. 345000.. . 00 的 ,我们 舍 人 后 会 得 到 2. 35 
精 解 : PowerPC、SPARC64 和 AMD SSE5 体系 结构 提供 了 一 个 单独 的 指令 来 对 三 个 寄存 器 执行 乘法 和 加 
法 操作 :a=a + (bxe)。 很 明显 ， 因 为 这 个 操作 常用 ， 这 条 指令 潜在 地 允许 更 高 的 浮 点 性 能 。 同 样 重要 的 
是 蔡 换 掉 了 两 次 舍 人 在 乘法 后 和 在 加 法 后 一 一 其 可 能 在 分 开 的 指令 中 出 现 ， 乘 加 指令 只 是 在 加 法 后 执 








驴 在 实际 数 和 能 表达 的 数 之 问 的 有 效 数 最 低位 上 的 误差 位 数 。 
© 网 保护 位 和 舍 人 位 一 样 用 于 会 入 的 位 ， 当 合 人 位 右边 有 非 零 的 数据 时 将 其 置 1 
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行 一 次 舍 人 。 一 次 舍 信 步骤 增加 了 乘 加 的 精度 。 这 样 的 一 次 舍 入 的 操作 称 为 混合 乘 加 S。 它 已 被 加 入 到 修 
订 的 IEEE 754 标准 里 ( 见 CD 中 的 3.10 节 )。 


3.5.6 小 结 


下 面 的 重点 再 次 强调 了 第 2 章 中 存储 程序 的 概念 ; 不 能 仅仅 看 看 数据 位 就 决定 信息 的 含义 ， 
因为 即使 是 相同 的 位 也 代表 了 不 同 的 目标 。 这 一 节 给 出 的 计算 机 算术 是 有 限 精 度 的 ， 因 此 和 自 
然 的 算术 不 同 。 例 如 ，IEEE 754 的 标准 浮 点 表示 为 

(~ 1)° x (1 + Fraction) x 2 "ee) 
几乎 总 是 一 个 实数 的 近似 。 计 算 机 系统 必须 小 心 弥合 计算 机 算术 和 真实 世界 的 算术 之 间 的 差距 ， 
而 程序 员 有 时 也 需要 小 心 这 种 近似 值 的 含义 。 

位 模式 并 没有 内 在 的 含义 ， 它 们 可 能 表示 有 符号 整数 、 无 符号 整数 、 浮 点 数 和 指令 等 。 具 体 
代表 什么 意思 要 看 指令 对 该 字 的 哪些 位 进行 操作 。 

计算 机 数 和 真实 世界 里 的 数 的 主要 不 同 是 计算 机 数 的 大 小 是 有 限制 的 ， 因 此 限制 了 其 精度 ; 
计算 的 数字 有 可 能 太 大 或 太 小 而 无 法 在 一 个 字 中 表示 。 程 序 员 必须 记 住 这 些 限 制 并 相应 地 编程 。 

操作 


addu, addiu, subu,mult ,div,AND,ANDi ,OR,ORi,NOR,slt,slti 











ee ee 数据 传送 | 
char | 一 |]ip,sbllui | add,addi, sub,mult,div,AND,ANDi,OR,ORi,NOR, slt, olti 
一 | char | 1h,sh,lui | addu,addiu,subu,multu,divu,AND,ANDi,OR,ORi NOR. oltu oltiu 
float | ， 













addu,addiu, subu,multu, divu, AND, ANDi ,OR, ORi ,NOR, sltu, sltiu 









float add. s,sub. s,mult. s,Qiv. S,C. eq. S,C. lt. s,c. le.s 
double 


硬件 软件 接口 

在 上 一 章 ， 我 们 提出 了 编程 语言 C 的 存储 分 类 ( 见 2.7 节 的 硬件 /软件 接口 部 分 ) 。 上 表 给 
出 了 一 些 C 和 Java 的 数据 类 型 、MIPS 数据 传送 指令 ， 以 及 对 出 现在 第 2 章 和 本 章 的 那些 数据 类 
型 的 操作 指令 。 注 意 Java 省 略 了 无 符号 整数 。 






add. G,sub. d,mult. d,div. d,c eq. d,c. 1Lt.d,c-. le.d 








小 测验 
假设 有 一 个 16 位 的 正 EE 754 浮 点 格式 ， 其 中 有 5 位 指数 位 。 那么 它 可 能 表示 的 数 的 范围 是 多 少 ? 
A. 1. 0000 0000 00 x 2° 到 1.1111111111x2”, 0 


B. +1.000000000x2-” 到 +1.111111111x2’s, +0, +%w, NaN 

C. 二 1. 0000 000000 x2-” 到 +1.1111111l1l x25, 40, +%m , NaN 

D. +1.0000 000000x2-” 到 +1.111111l11l x2*, 40, +%w, NaN 

精 解 : 为 了 进行 可 能 包含 NaN 的 比较 ，IEEE 754 标准 包含 了 有 序 和 无 序 作 为 比较 1 选项 。 因 此 ， 完 整 
的 MIPS 指令 集 有 许多 用 于 比较 的 指令 来 支持 NaN。( Java 不 支持 无 序 比 较 。) 

为 了 从 一 次 浮 点 操作 中 最 大 限度 地 获得 精度 ， 标准 允许 一 些 数 以 非 规格 化 的 形式 出 现 。 标 准 允许 有 非 
规格 化 数 (也 称 为 非 规格 化 或 者 亚 规 格 化 ) ， 目 的 是 使 0 和 最 小 规格 化 数 之 间 的 间隙 更 小 。 在 指数 为 零 而 
有 效 数 非 零 时 ， 人 允许 一 个 有 效 数 逐 步 变 小 直到 0， 称 为 逐步 下 泣 (gradual underflow) 。 例 如 ， 最 小 的 正 的 单 
精度 规格 化 数 为 

1. 0000 0000 0000 0000 0000 000, x2 -5 
而 最 小 的 单 精度 非 规格 化 数 为 
0. 0000 0000 0000 0000 0000 001, x2-'*， 即 1.0, x2-'9 





加 ”一 条 浮 点 指令 ， 其 执行 一 次 乘法 和 一 次 加 法 ， 但 只 在 加 法 后 执行 一 次 会 人 。 
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对 于 双 精 度 ， 非 规格 化 间隙 为 从 1.0, x2 “到 1.0: x2 0” 。 

对 于 想 建 立 一 个 快速 浮 点 单元 的 设计 者 来 说 ， 可 能 偶尔 出 现 的 非 规 格 化 源 操 作 数 是 一 件 令 人 头疼 的 事 
情 。 因 此 ， 许 多 计算 机 在 源 操作 数 为 非 规格 化 数 时 产生 蜡 常 ， 让 软件 来 处 理 相应 的 操作 。 尽 管 软件 执行 可 
以 完美 地 处 理 ， 但 它们 低 效 的 表现 降低 了 非 规格 化 数 在 可 移植 的 淫 点 软件 中 的 受 欢迎 程度 。 青 者 ， 如 果 程 
序 员 并 不 期 望 得 到 非 规 格 化 数 ， 他 们 所 写 程 序 的 执行 效率 之 低 也 许 会 令 他 们 感到 惊讶 。 


3.6 并行 性 和 计算 机 算术 : 结合 和 

通常 情况 下 ， 程 序 首先 是 为 顺序 执行 编写 的 ， 而 后 才 考 虑 并 行 的 问题 ， 所 以 一 个 很 自然 的 问 
题 就 是 :“ 这 两 个 版 本 能 得 到 相同 的 答案 吗 ?” 如 果 答 案 是 否定 的 ， 你 会 假设 在 并 行 版 本 中 有 一 
个 错误 需要 捕捉 。 

这 个 做 法 假设 在 从 顺序 执行 变 为 并 行 时 ， 计 算 机 算术 不 会 影响 结果 。 即 ， 如 果 将 一 百 万 个 数 
相 加 ， 那 么 ,无 论 是 用 1 个 处 理 器 ， 还 是 1000 个 处 理 器 ， 结 果 都 会 相同 。 这 个 假设 对 补 码 整数 
是 成 立 的 ， 即 使 有 上 滋 也 是 如 此 。 换 句 话 说 就 是 整数 加 法 是 符合 结合 律 的 。 

然而 ， 由 于 浮 点 数 是 实数 的 近似 而 且 计 算 机 算术 是 有 限 精 度 的 ， 它 并 不 对 浮 点 数 成 立 。 即 ， 
浮 点 加 法 是 不 符合 结合 律 的 。 

到 列 测试 浮 点 加 法 的 结合 律 

看 看 x+(y+z)=(x+y)+z 是 否 成 立 。 例 如 ， yx = -1.5., x 10”, y=1.5. x 10”， z=1.0, 
并 且 全 部 采用 单 精 度 表示 。 
答案 

假定 浮 点 能 表示 很 大 范围 的 数 ， 当 将 两 个 异 号 的 大 数 相 加 ， 然后 再 加 上 一 个 小 数 时 ， 就 会 出 
现 问 题 ， 正 如 我 们 看 到 的 : 

x+(y+z =-1.5% x10° + (1.5, x10 +1.0) =-1.5, x10” +1.5, x10™ =0.0 

(%+7) +z=(-15oxl0 +1.5,0 x10%) +1.0 = (0.0,)+1.0=1.0 
因此 x+(y+z) 关 (x+yY) +z， 所 以 浮 点 加 法 是 不 符合 结合 律 的 。 

因为 浮 点 数 精度 是 有 限 的 ， 并 且 导 致 对 实际 结果 的 近似 ，1. 5,, x 10” 比 1.0 大 许多 ， 所 以 
1. 5o x10 +1.0 仍然 是 1.5o x108。 就 是 为 什么 x、y 和 >* 的 和 是 0.0 或 者 是 1.0 的 原因 。 这 依 
赖 于 浮 点 加 的 顺序 ， 因 此 浮 点 加 是 不 符合 结合 律 的 。 

这 个 缺陷 的 一 个 更 加 令 人 烦恼 的 情况 是 在 并 行 机 上 可 能 发 生 。 并 行 机 上 操作 系统 调度 器 会 
根据 并 行程 序 的 运行 情况 来 使 用 不 同 数目 的 处 理 器 。 对 并 行 无 意识 的 程序 员 可 能 会 因为 程序 每 
次 运行 结果 总 有 些 不 同 而 苦恼 ， 即 使 是 相同 的 代码 和 输入 ， 这 是 因为 每 次 运行 使 用 不 同 数目 的 
处 理 器 可 能 导致 浮 点 求 和 以 不 同 的 顺序 进行 。 

在 这 个 困境 下 ， 号 并 行 代码 并 使 用 了 浮 点 数 的 程序 员 需 要 验证 结果 是 否 可 信 ， 即便 结果 可 
能 与 顺序 执行 的 结果 不 一 致 。 处 理 这 个 问题 的 领域 称 为 数值 分 析 ， 关于 该 问题 本 身 就 可 以 写 一 
本 教科 书 。 这 也 是 像 LAPACK 和 SCALAPAK 这 样 的 数学 库 流行 的 一 个 原因 。 这 些 数学 库 在 顺序 
和 并 行 执行 下 都 被 验证 是 有 效 的 。 

精 解 : 结合 律 问题 可 能 导致 如 下 情况 发 生 : 当 两 个 处 理 嚣 以 不 同 的 顺序 执行 一 个 元 余 计 算 时 ， 可 能 获 
得 稍微 不 同 的 结果 ， 尽 管 两 个 结果 都 是 足够 精确 的 。 但 当 用 条 件 跳 转 指 令 比 较 这 个 浮 点 数 时 ， 可 能 产生 一 
种 bug， 两 个 处 理 器 选择 了 不 同 的 跳 转 方向 ， 而 按照 常识 它们 应 该 向 同一 个 方向 跳 转 。 


3.7 实例: x86 的 浮 点 


x86 有 者 规则 的 、 完 全 对 寄存 器 进行 操作 的 乘法 和 除法 指令 ， 而 不 像 MIPS 采用 Hi 和 Lo。 
(事实 上 ，MIPS 指令 集 的 后 续 版 本 增加 了 类 似 的 指令 。) 
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主要 的 不 同体 现在 浮 点 指令 上 。x86 浮 点 体系 结构 不 同 于 世界 上 任何 一 种 计算 机 。 


3.7.1 x86 浮 点 体系 结构 


在 1980 年 ，Intel 发 布 了 8087 浮 点 协 处 理 器 。 该 体系 结构 扩展 了 8086 指令 集 ， 包 含 大 约 60 
条 浮 点 指令 。 

Intel 对 浮 点 指令 提供 了 一 种 堆栈 结构 : 载 人 指令 将 数 压 栈 ， 操 作 使 用 栈 顶 的 两 个 单元 作为 
源 操 作 数 ， 存 储 进 行 弹 栈 。Intel 对 这 个 堆栈 结构 补充 了 一 些 指令 和 寻 址 模式 从 而 允许 这 个 体系 
结构 获得 一 些 寄 存 器 - 存储 器 模式 的 益处 。 除 了 用 栈 顶 的 两 个 元 素 作 为 源 操作 数 外 ， 一 个 源 操 
作 数 可 以 在 内 存 中 ， 或 者 在 栈 顶 下 7 个 片上 寄存 器 之 一 中 。 也 可 以 说 ， 在 一 个 完全 的 堆栈 指令 集 
外 ， 补 充 了 有 限 的 寄存 器 - 内 存 指令 。 

然而 ， 这 种 混合 仍然 是 一 种 受 限 制 的 寄存 器 - 内 存 模 式 ， 因 为 load 指令 总 是 将 数据 移 到 堆 
栈 的 顶端 ， 同 时 将 栈 顶 指针 加 1， 而 store 指令 只 能 将 栈 顶 数据 移 到 内 存 中 。Intel 使 用 sT 表示 栈 
顶 ， 而 用 ST(i) 表 示 栈 顶 下 第 i 个 寄存 髓 。 

这 种 体系 结构 另外 一 个 新 颖 的 特点 是 源 操作 数 在 寄存 器 堆栈 中 比 在 内 存 中 更 宽 ， 并 且 所 有 的 
操作 都 是 以 这 样 宽 的 内 部 精度 来 执行 。 不 像 MIPS 最 大 的 位 宽 为 64 位 ， 在 堆栈 中 的 x86 源 操 作 数 达 
到 80 位 宽 。 数 字 在 载 人 时 自动 转换 为 这 种 内 部 的 80 位 格式 ， 而 在 写 回 内 存 时 转换 回 相应 的 大 小 。 
尽管 双 精 度 扩 展 精度 对 于 编写 数学 软件 的 程序 员 来 说 是 很 有 用 的 ， 但 并 不 被 程序 语言 支持 。 

内 存 数据 可 以 是 32 位 的 ( 单 精度 ) 或 者 64 位 的 〈 双 精度 ) 浮 点 数 。 这 些 指 令 的 寄存 器 - 
和 仓储 器 版 本 在 执行 操作 之 前 将 内 存 数据 转换 为 Intel 的 80 位 数据 格式 。 这 些 数据 传送 指令 可 以 自 
动 将 16 位 和 32 位 的 整数 转化 为 浮 点 数 。 对 于 整数 的 load 和 store 指令 ， 反 之 亦 然 。 

x86 浮 点 操作 主要 可 以 分 为 四 类 ， 

1) 数据 移动 指令 ， 包 括 load 、load 常数 和 store。 

2) 计算 机 算术 指令 ， 包 括 加 、 减 、 乘 、 除 、 开 方 根 和 求 绝 对 值 。 

3) 比较 指令 ， 包 括 将 结果 发 送 给 整数 处 理 器 使 其 能 跳 转 的 指令 。 

4) 超越 函数 指令 ， 包括 正弦 、 余 弦 、 对 数 和 指数 。 

图 3-20 给 出 了 60 条 浮 点 操作 中 的 一 部 分 。 注 意 当 我 们 对 这 些 操作 引 人 和 人 操作 数 模式 时 ， 可 以 
得 到 更 多 的 组 合 。 图 3-21 给 出 了 浮 点 加 的 多 种 情况 。 





图 3-20 ”x86 浮 点 指令 

我 们 使 用 大 括号 | } 给 出 基本 操作 可 选 的 变量 .| 了 1 表示 指令 有 个 整数 版 本 ，1P| 表示 在 操作 后 会 执行 
弹 栈 ， 而 {RI 表示 在 操作 中 更 换 源 操 作 数 的 顺序 。 第 一 列 给 出 了 数据 传送 指令 ， 可 将 数据 移动 到 内 存 或 者 
栈 顶 下 的 一 个 寄存 器 。 第 一 列 最 后 的 三 个 操作 是 将 常数 压 栈 ，pi， 1.0 和 0.0。 第 二 列 给 出 了 上 面 描述 过 的 算 
术 操作 。 注 意 ， 最 后 三 个 只 对 栈 顶 进行 操作 。 第 三 列 是 比较 指令 。 因为 没有 专门 的 泽 点 跳 转 指令 ， 比 较 结 果 
会 通过 FSTSW 指令 将 结果 发 送 给 整数 CPU 的 AX 寄存 器 或 者 内 存 中 ， 然后 紧 跟 一 条 SAHF 指令 对 条 件 码 进行 
设置 。 这 样 ， 浮 点 比较 指令 就 可 以 用 整数 跳 转 指令 来 测试 。 最 后 一 列 给 出 了 高 级 浮 点 操作 。 并 不 是 所 有 的 被 
标记 的 组 合 都 存在 。 因 此 ，F{I} SUB {R) {Pp} 代表 了 这 些 在 x86 中 存在 的 指令 ，FSUB, FISUB, FSUBR 
FISUBR,FSUBP, FSUBRP。 对 于 整数 减法 指令 ， 并 没有 弹 栈 (FIsUBP) 或 者 交换 弹 栈 〈 FISUBRP ) 。 
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FADD | | 。 画 个 操作 数 都 在 堆栈 中 ;结果 放 在 酚 顶 
一 个 源 操作 数 在 栈 顶 ， 结果 放 在 栈 顶 下 第 i 个 寄存 器 中 


3-21 有 不 同 源 操作 数 的 x86 浮 点 加 的 多 种 情况 


浮 点 指令 使 用 8086 的 Esc 操作 码 和 末 字 节 地 址 指示 符 来 编码 〈 见 图 2-47) 。 内 存 操作 保留 
了 2 位 用 于 决定 操作 数 是 32 位 或 者 64 位 的 浮 点 数 ， 还 是 16 位 或 者 32 位 的 整数 。 同 样 的 2 位 也 
用 于 并 不 访 存 的 版 本 ， 以 用 于 决定 是 否 在 操作 后 弹 栈 ， 和 决定 栈 顶 或 者 低 一 些 的 寄存 器 是 否 能 
得 到 结果 。 

在 过 去 ，x86 系列 的 浮 点 性 能 远 远 落后 于 其 他 计算 机 。 因 此 ， 作 为 SSE2 的 一 部 分 ，Intel 设 
计 了 一 种 更 加 传统 的 浮 点 体系 结构 。 


3.7.2 Intel SIMD 流 扩展 2 (SSE2) 浮 点 体系 结构 


第 2 章 提 到 在 2001 年 ，Intel 给 它 的 体系 结构 增加 了 144 条 指令 ， 其 包括 双 精 度 浮 点 寄存 器 
和 操作 。 它 使 用 了 8 个 64 位 的 寄存 器 用 于 浮 点 操作 ， 比 起 独特 的 堆栈 结构 ， 对 浮 点 操作 给 了 编 
详 固 一 种 不 同 的 目标 。 编 译 器 可 以 选择 使 用 8 个 SSE2 寄存 器 作为 浮 点 寄存 器 ， 就 像 其 他 计算 机 
那样 。AMD 则 扩展 到 16 个 寄存 器 ， 作 为 AMD64 的 一 部 分 ， 后 者 被 Intel 重新 标记 为 EM64T 来 使 
用 。 图 3-22 对 SSE 和 SSE2 指令 进行 了 汇总 。 

除了 将 一 个 单 精度 或 者 双 精 度数 存放 在 寄存 器 中 ，Intel 还 人 允许 多 个 浮 点 源 操 作 数 一 起 打包 
放 在 一 个 128 位 的 SSE2 寄存 器 中 : 4 个 单 精度 或 者 2 个 双 精 度 。 因 此 ， 对 于 SSE2 的 16 个 浮 点 寄 
人 存 兰 实际 上 是 128 位 宽 。 如 果 源 操作 数 可 以 以 128 位 对 齐 数据 的 形式 存放 在 内 存 中 ， 则 一 条 指令 
就 可 以 进行 128 位 的 数据 传送 ， 从 而 存 取 多 个 源 操作 数 。 能 够 同时 执行 4 个 单 精度 (PS) 或 者 2 
个 双 精 度 (PD) 操作 的 浮 点 算术 能 够 支持 这 种 打包 的 浮 点 数据 格式 。 这 种 体系 结构 的 性 能 是 堆 
栈 结构 的 两 倍 还 要 多 。 


ADD (SS/PS/SD/EFD} xm mem/mm | CMP (SS/BS/SD /FD) 
suBlss/Ps/sD /sD)xemmemJm | ee 
MUL (SS/PS/SD/FD) rm ,mem /mmn | 
MOV {H/L} (PS /PD) mm, mem /xmm 
my 一 
sosrea/a/an/Pjaeajmm | 


ee 
/ee 


3-22 ”x86 的 SSE/SSE2 浮 点 指令 

xmm 是 指 一 个 源 操 作 数 是 在 一 个 128 位 的 SSE2 寄存 器 中 ， 而 mem/ mm 是 指 另 一 个 源 操作 数 或 者 在 内 存 中 
或 者 在 一 个 SSE2 寄存 器 中 。 我 们 使 用 大 括号 {| 来 表示 基本 操作 的 可 选 变量 ，f1SS} 代表 标量 单 精度 浮 点 ， 
即 一 个 32 位 的 源 操 作 数 存在 一 个 128 位 的 寄存 器 中 ; { PS| 代表 打包 的 单 精度 浮 点 ， 即 四 个 32 位 的 源 操作 数 
存在 一 个 128 位 的 寄存 器 中 ;1 SD 上 代表 标量 双 精度 浮 点 ， 即 一 个 64 位 的 源 操作 数 存在 一 个 128 位 的 寄存 器 
中 ; 1PD} 代表 打包 的 双 精 度 浮 点 ， 即 两 个 64 位 的 源 操作 数 存在 一 个 128 位 的 寄存 器 中 ，| A| 代表 128 位 的 
源 操 作 数 在 内 存 中 对 齐 ; {U1 代表 128 位 的 源 操作 数 在 内 存 中 没有 对 齐 ; | H| 代表 移动 128 位 源 操作 数 的 高 
部 分 ; 1L| 代表 移动 128 位 源 操 作 数 的 低 部 分 。 





















MOV {A/U} (SS/PS /SD /PD) ym , mem /ymm 
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3.8 廖 误 与 陷阱 
数学 可 以 被 定义 为 这 样 的 学 科 ， 我们 绝 不 知道 我 们 在 谈论 什么 以 及 我 们 所 谈论 的 是 否 正 确 。 
一 一 伯 兰 特 : 罗素 ， 近 来 关于 数学 原理 的 发 言 ，1901 
算术 中 常见 的 雇 误 与 陷阱 通常 是 由 计算 机 算术 的 有 限 精 度 和 自然 算术 的 无 限 精 度 之 间 的 差 
异 引 起 的 。 
常见 的 廖 误 : 正如 整数 乘法 中 左 移 指令 可 以 代替 与 2 的 震 次 方 数 相 乘 一 样 ， 右 移 指 令 也 可 以 
代替 与 2 的 宪 次 方 数 相 除 。 
回忆 一 下 二 进 制 数 x， 其 中 xi 代表 第 i 位 ， 有 
.+(G3x2)+(m2x2)+(xx2)+(xx20) 
将 x 右 移 n 位 看 起 来 似乎 是 和 被 2" 相 除 相同 。 事 实 上 对 于 无 符号 整数 确实 如 此 。 问题 出 在 有 符 
号 数 上 。 例 如 ， 假设 我 们 用 -56 除 以 4,。， 商 就 是 -1,,。 -5 的 补 码 形式 是 
1111 1111 1111 1111 1111 1111 1111 1011， 
根据 这 个 小 论 ， 石 移 2 位 就 是 被 4。 除 (2?): 
O011 1111 1111 1111 1111 1111 1111 1110， 
由 于 符号 位 上 是 0， 所 以 结果 很 明显 是 错 的 。 右 移 后 的 值 实际 是 1 073 741 822 而 不 是 - 1，。 
一 种 解决 办 法 是 算术 右 移 时 ， 进 行 符号 位 扩展 而 不 是 移 人 0。 -5,, 算 术 右 移 2 位 得 到 
1111 1111 1111 1111 1111 1111 1111 1110， 
结果 是 -2 而 不 是 - 1,。， 虽 然 很 接近 ,但 依然 不 正确 。 
常见 的 陷阱 : MIPS 指令 addiu (无 符号 立即 数 加 ) 会 对 16 位 立即 数 域 进行 符号 扩展 。 
当 我 们 不 关心 上 洲 时 ，addiu 经 常用 于 将 常数 和 有 符号 整数 相 加 。 由 于 MIPS 没有 立即 数 减 
的 指令 ， 所 以 MIPS 体系 结构 设计 者 决定 对 该 指令 的 立即 数 域 进 行 符号 扩展 ， 以 支持 立即 数 为 负 








常见 的 雇 误 : 只 有 理论 数学 家 才 | 上 。 BUSINESS | 忒 | 

会 关心 浮 扣 精度 Inte ] to work on software patch for Pentium hn a : 

1994 年 11 月 的 报纸 新 闻 头 条 证 多 

明了 这 个 观点 是 错误 的 〈 见 图 3-23) 。 Ee es | 

Pentium 用 一 种 标准 的 浮 点 除 算 : 
Filawed Chip T 


法 每 步 生 成 多 个 商 位 ， 使 用 除数 的 最 


Bruises Intel 








高 几 位 和 被 除数 猜测 商 的 下 面 2 位 。 ee i Be 
这 个 猜测 是 利用 一 个 含 -2、- 1、0、 ,二 _BUSINESS ee 
+1、+2 的 查找 表 。 猜 测 结果 和 除数 infel's Pentium Problem Pers;-~。 = 






Pentiumwt Woes contine IBM to stop 
= ee! opi Shipping 







相 除 ， 然 后 从 余数 中 减 去 ， 获 得 新 的 
余数 。 像 不 恢复 除法 一 样 ， 如 果 前 面 
的 一 个 猜测 使 得 余数 太 大 ， 部 分 余数 





将 在 下 面 的 执行 中 进行 调整 。 图 3-23 1994 年 11 月 的 一 些 报刊 杂志 的 文章 ， 包 括 
《纽约 时 代 》、《 圣 何 塞 信使 报 》、《 旧 人 金山 新 闻 》、 


很 明显 ，Intel 认为 有 5 个 来 自 《信息 世界 》 
80486 查找 表 的 元 素 不 会 访问 到 | y 因 Pentium 浮 点 bug 甚至 成 为 电视 节目 的 “ ‘十 大 新 闻 ”。Intel 最 后 花 了 
此 ， 他 们 在 Pentium 中 优化 了 此 查找 ”3 亿美 元 来 替换 掉 有 bug 的 芯片 。 
表 ， 在 一 些 情况 下 返回 0 而 不 是 2。Intel 错 了 : 前 11 位 总 是 正确 的 ， 但 错误 会 偶尔 在 12 位 和 52 
位 之 间 出 现 , 或 者 说 十 进 制 下 在 第 4 位 到 第 15 位 出 现 。 

下 面 是 Pentium 浮 点 bug 事件 的 时 间 表 ， 
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e 1994 年 7 月 ， Intel 在 Pentium 上 发 现 了 这 个 bug。 修 复 这 个 bug 需要 几 十 万 美元 。 在 正常 的 
bug 修复 程序 之 后 ， 还 要 花 数 月 的 时 间 来 做 修改 ， 重 新 验证 ， 并 把 矫正 后 的 芯片 投入 生产 。P- 
tel 计划 在 1995 年 1 月 将 正确 的 芯片 投入 生产 ， 估 计 将 会 生产 3 到 5 百 万 带 有 这 个 bug 的 芯片 。 

。 1994 年 9 月 : 弗吉尼亚 州 林 奇 伯 格 学 院 的 数学 家 ， 托 马 斯 - 内 斯 里 ， 发 现 了 这 个 bug。 
在 拨打 了 Intel 技术 支持 电话 但 没有 获得 官方 回应 后 ， 他 将 他 的 发 现 公 布 在 了 因特网 上 。 
它 迅 速 得 到 了 回应 ， 一 些 人 指出 当 乘 法 中 有 大 数 时 ， 即 使 一 些小 的 错误 都 会 被 放大 : 例 
如 ， 有 罕见 疾病 的 人 口 比 例 乘 以 欧洲 的 人 口 ， 可 能 导致 患 病人 口 的 错误 估计 。 

。 1994 年 11 月 7 日 :《 电 子 工程 时 代 》 将 这 个 事情 公布 在 它 的 首页 ， 然 后 迅速 被 其 他 报纸 转载 。 

1994 年 11 月 22 日 : mtel 发 布 了 新 闻 公 告 : 称 其 为 一 个 “小 故障 ”。Pentium “可 能 在 第 

9 位 产生 错误 ... 即使 是 大 多 数 工程 师 和 经 济 分 析 师 也 只 需要 精确 到 小 数 点 后 第 4 或 第 5 

位 ， 电 子 制 表 软 件 和 文字 处 理 器 的 使 用 者 不 需要 担忧 …… 这 个 世界 上 只 有 很 少 的 人 会 受 

到 影响 。 到 目前 为 止 ， 我 们 只 听 到 一 名 …… [仅仅 j」 理论 数学 家 (在 夏天 之 前 买 的 

Pentium 计算 机 ) 可 能 需要 关注 。” 令 许多 人 厌恶 的 是 ， 消 费 者 需要 将 自己 的 应 用 告诉 In- 

tel ， 然 后 由 Intel 决定 他 们 的 应 用 是 否 需 要 获得 一 个 新 的 没有 除法 bug 的 Pentium 处 理 器 。 

1994 年 12 月 5 日 : Intel 宣布 对 于 电子 制 表 软件 的 用 户 来 说 ， 这 个 缺陷 只 有 27 000 年 才 

会 发 生 一 次 。Intel 假设 用 户 每 天 做 1000 次 除法 ， 乘 以 错误 比率 ， 后 者 是 假设 浮 点 数 是 随 

机 的 ， 为 90 亿 分 之 一 而 获得 的 。 然 后 得 到 9 百 万 天 ， 即 27 000 年 。 事 情 开 始 平息 下 来 ， 

尽管 Iniel 并 没有 解释 一 个 普通 的 用 户 为 什么 会 随机 地 访问 浮 点 数 。 

1994 年 12 月 12 日 : IBM 研究 部 门 分 析 了 Itel 对 错误 比率 的 计算 (可 以 在 www. mkp. 

com/books_catalog/ cod/links. htm 看 到 这 篇 文章 )。IBM 声称 普通 的 电子 制 表 程序 一 天 里 

每 15 分 钟 会 重新 计算 一 次 ， 可 以 在 24 天 里 就 发 生 一 次 和 Pentium 相关 的 错误 。IBM 假设 

那 15 分 钟 里 每 秒 有 5000 次 除法 ， 这 样 平均 一 天 就 有 420 万 次 除法 。 同 时 假设 数字 并 不 

是 随机 分 布 的 ， 改 为 以 亿 分 之 一 的 概率 来 计算 。 作 为 结果 ，IBM 立即 停止 了 所 有 基于 

Pentium 的 IBM 个 人 计算 机 的 出 货 。 对 Intel 来 说 ， 事 情 又 麻烦 起 来 。 

1994 年 12 月 21 日 : Intel 发 布 了 由 Intel 总 裁 、 首 席 执行 官 、 首 席 运营 官 和 董事 会 主席 签 

署 的 声明 : 

“我 们 Intel 对 最 近 发 布 的 Pentium 处 理 器 的 缺陷 处 理 真 诚 地 道歉 。 ' Intel inside， 标 
记 的 含义 是 指 您 的 计算 机 拥有 一 颗 在 质量 和 性 能 上 首届 一 指 的 微 处 理 器 。 有 上 于 的 Intel 
雇员 为 了 实现 这 个 目标 而 努力 工作 。 但 是 ， 没 有 一 款 微 处 理 器 是 完美 的 ，Intel 会 继续 相 
信 ， 从 技术 层面 上 来 讲 ， 任 何 一 个 微小 的 问题 都 有 它 的 生命 期 。 尽 管 Intel 肯定 会 对 
Pentium 处 理 器 的 这 个 版 本 负责 到 底 ， 但 我 们 也 意识 到 了 用 户 的 关切 。 我 们 要 解决 这 种 关 
切 。 任 何 消费 者 在 他 们 计算 机 生命 期 的 任何 时 刻 ， 只 要 他 们 需要 ，Intel 会 免费 为 其 更 换 
Pentium 处 理 器 ， 使 浮 点 路 缺陷 得 到 纠正 。” 

分 析 家 估计 这 次 召回 花费 了 Intel 五 亿美 元 ，Intel 的 工程 师 那 年 没有 拿 到 圣诞 节 奖 金 。 

这 次 事件 对 每 个 人 来 说 ， 都 有 一 些 值得 思考 的 地 方 。 如 果 在 1994 年 的 7 月 修复 了 这 个 bug 
会 少 花 多 少 钱 ? 修复 Intel 的 名 声 需 要 多 大 的 代价 ? 一 个 广泛 应 用 的 ， 像 微 处 理 器 这 样 的 产品 出 
现 bug， 其 相关 的 责任 有 和 多么 重大 ? 

在 1997 年 4 月， 在 Pentium Pro 和 Pentium II 微 处 理 器 里 ， 发 现 了 另 一 个 浮 点 bug。 当 浮 点 转 
整数 store 指令 (fist，fistp) 碰 到 一 个 太 大 的 浮 点 负数 时 ， 在 转 成 整数 后 数值 太 大 无 法 放 在 
16 位 或 者 32 位 字 里 面 ， 从 而 将 FPO 状态 字 设置 错误 (精度 异常 代替 了 无 效 操作 异常 )。 为 了 In- 
tel 的 信誉 ， 这 次 他 们 发 布 了 对 这 个 bug 的 声明 并 提供 了 一 个 软件 补丁 来 解决 一 一 比 起 1994 年 是 
完全 不 一 样 的 反应 。 
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3.9 ”本 童 小 结 

存储 程序 计算 机 有 一 个 副作用 ， 就 是 位 模式 没有 内 在 的 含义 。 相 同 的 位 模式 可 能 代表 有 符 
号 整数 、 无 符号 整数 、 浮 点 数 和 指令 等 。 对 这 个 字 操 作 的 指令 决定 了 其 意义 。 

计算 机 算术 和 用 纸 和 笔 手 算 的 算术 不 同 的 地 方 是 受到 有 限 精 度 的 约束 。 这 个 限制 可 能 会 因 
为 计算 中 数 大 于 或 者 小 于 预先 的 设 定 而 导致 无 效 操作 。 这 种 异常 ， 称 为 “上 洲 ” 或 “下 溢 ”， 可 
能 导致 异常 、 中 断 或 类 似 于 意外 的 子 程序 调用 。 第 4 章 更 详细 地 讨论 了 异常 。 

浮 点 算术 因为 是 对 实际 的 数字 的 近似 而 增加 了 挑战 性 ， 而 且 要 小 心 确保 所 选 的 计算 机 数 能 
最 接近 地 表示 实际 数字 。 不 精确 和 有 限 的 表达 带 来 的 挑战 是 数值 分 析 领 域 灵感 的 部 分 来 源 。 最 
近 转 向 并 行 性 的 趋势 使 得 数值 分 析 再 次 被 关注 起 来 ， 在 顺序 计算 机 上 是 完全 安全 的 东西 ， 在 并 
行 计算 机 里 需要 重新 考虑 ， 在 寻找 快速 的 算法 的 同时 也 要 有 正确 的 结果 。 

过 去 的 多 年 里 ， 计 算 机 算术 变 得 非常 标准 化 ， 极 大 地 增加 了 程序 的 可 移植 性 。 当 今 销售 的 大 
量 计算 机 都 采用 了 二 进 制 整数 补 码 算 术 和 IEEE 754 二 进 制 浮 点 算术 。 例如， 在 本 书 第 一 次 印刷 
时 ， 所 有 市 面 上 销售 的 桌面 计算 机 就 开始 采用 这 些 标准 。 

在 本 章 和 第 2 章 解 释 计算 机 算术 时 ， 更 多 地 采用 MIPS 指令 集 进 行 描述 。 容 易 混 淆 的 一 点 是 
这 两 章 讲 到 的 指令 和 MIPS 芯片 中 执行 的 指令 以 及 MIPS 汇编 器 接受 的 指令 之 间 的 关系 。 图 3-24 



















































OE ”MIPS 算术 核心 指令 | 名 称 | 
对 mt | RR 
.I | 符 9 乘 |mitu | R | 
_R | 除 lav | R | 
LT | 无 符 B 除 la | R | 
| R | 取 自 而 寄存 器 |mhi | R | 
subu | R | 取 自 Lo 寄存 器 jn | R | 
与 AND 。 _R | 取 自 系统 控制 寄存 器 (EPC) |mfc0 | R | 
立即 数 与 IaNDi | I | 学 点 单 精度 加 |adas | R | 
oOR | R | 学 点 双 精 度 加 |aaaa | R | 
CRi | I | 学 点 单 精度 减 |suhs | R | 
NOR RR | 浮 点 双 精 度 碱 |sua | R | 
sl1 | R | 学 点 单 精度 乘 |mase | R | 
逻辑 布 移 [sti | R | 学 点 双 精 度 采 |[mra | R | 
| 取 立 即 数 的 高 位 |iui | 1 | 学 点 单 精度 除 |aivs | R 
取 字 [ww | T | 浮 点 双 精 度 除 divd | R | 
在 字 jsw | I | 学 点 单 精度 取 字 |iwi | 了 
_ 取 无 符号 半 字 |ihu | 1 | 学 点 单 精度 存 字 |swi | T 
存 # 字 |gsn | 工 | 浮 点 双 精 度 取 字 |iact | T | 
_ 取 无 符号 字 节 |ibu | 1 | 浮 点 双 精 度 存 字 dc | TT | 
有 守节 sb | T | 溯 点 真 M 员 转 |bot | 一- 
链接 取 ( 原 了 更 新 [11 | 1 | 学 点 假 则 中 转 ”|bclf | T 
条 件 存 〈 原 子 更 新 ) ”|sc | 1 | 浮 点 单 精度 t 较 cx | Rh 
相等 则 跳 转 |beqg | 1 |(x-eq,neq,1t,ie,ot,oe) | | 
-不 相等 则 申 转 |bne ”| 1 | 学 点 双 精 度 比较 |oxa | 一 
| | (eqnegltlegge) | | 
| 跑 转 并 链接 |jal 了 | 
jr 
-3 人 一 
无 符号 比较 ， 小 于 则 置 位 slty | R | 
无 符号 比较 ， 小 于 立即 数 则 置 位 | sitiun ”| 1 | 


图 3-24 MIPS 指令 集 … 
本 书 集中 介绍 左 列 的 指令 。 这 个 信息 也 可 以 在 文 前 的 MIPS 参考 数据 的 第 1 列 和 第 2 列 里 找到 。 
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图 3-24 列 出 了 本 章 和 第 2 章 中 提 到 的 MIPS 指令 。 我 们 将 图 中 左边 的 指令 集 称 为 MIPS 核心 
指令 。 在 右边 的 指令 称 为 MIPS 算术 核心 。 图 3-25 的 左边 是 包含 了 MIPS 处 理 器 执行 的 但 图 3-24 
中 没有 的 指令 。 我 们 将 全 部 的 硬件 指令 集 称 为 MIPS-32。 在 图 3-25 的 右边 是 被 编译 器 接受 但 不 属 
于 MIPS-32 的 指令 。 我 们 称 为 伪 MIPS 指令 。 






















保留 的 MIPS-32 格式 伪 MIPS 名 称 格式 

_R | 绝对 值 lass dm | 
蜡 或 立 由 数 |xori | I | 变 号 (有 符号 或 者 无 符 呈 ) |negs |mm 
算术 在 移 jsra | R | 旋转 和 称 |rol | 中 mi 
可 变 的 逻辑 左 移 |sllvy | R | 旋转 有 移 |ror | 中 ma 
可 变 的 逻辑 右 移 |srly | R | 乘 且 不 检查 上 滋 〔 有 符号 或 者 无 符号 ) |muls | rd m,n 
可 变 的 算术 右 移 |srav | R | 乘 旦 检查 上 溢 【 有 符号 或 者 无 符号 ) |mulos | rd m,n | 
移 于 下 jnmthi | R | 除 且 检 查 F 滋 av | 路 mn | 
移 夷 [jmtlo | R | 除 且 不 检查 [ 滋 jd judmn | 
取 # 字 jlh | 1 | 求 余 ( 有 符 或 者 天 符 9) |rems |rd, m,n | 
取 守 节 bw | yp 数 {imme | 
取 字 的 左边 ( 非 对 齐 ) [wi | IT | 取 好 lls [wm, addr | 
取 字 的 布 边 ( 非 对 刘 ) jlw | I | 了 mn 字 la me 
存 字 的 左边 ( 非 对 齐 ) |swi | 1 | 丰 邓 la [rn,addr | 
swr | 1 | 非 对 间 取 字 lvlw {rd, addr 
链接 取 【〈 原 子 更 新 ) 也 | I | 非 对 刘 丰 字 usw | rd, addr 

rd, addr 
雪 则 移 jmvz | R | 非 对 刘 丰 字 lush Tm, aad 
非 符 UM 移 mm | RI 转 |b fr 
乘 和 加 jmadas | R | 等 1H 踊 转 |begz |m,L 

乘 和 减 jmsubs | 1 | 比较 并 哎 转 (有 符号 或 者 元 符号 ) |bxs | m,n, 
小 于 零 则 胱 转 并 链接 ”|bltzal | 1 | 相等 则 置 位 seq |r, m,n 
映 转 并 链接 寄存 器 。 [jalz [| R | 不 相等 则 置 位 [sne |m, m,n | 
和 零 比较 并 跳 转 [bxz [| 工 | 比 较 并 十 位 (有 符号 或 者 无 待 号) |sxs | m 
与 地 近似 比较 并 避 转 |bxz | 1 |(x=ltvlegtge) | | TT 
x=ltile,gt,ge) | | | 取 基 给 评点 (8 或 者 ) |if | da 
与 寄存 器 值 近似 比较 并 师 转 jbxl | I | 学 点 数 存 鱼 (s 或 者 ) |sf | sddr 
与 寄存 器 信 比 较 并 自 陷 ”|tx | R | 

ti 

(x=eq,neq,lt,1e,gt,ge) | 

别名 E 回 jzre | rR 

系统 沿用 |syscali| 1 | 

中 断 〈 引 起 噶 常 ) |break | 工 | 
从 评点 移 至 整数 |mtcl | R | 
从 整数 移 至 浮 点 |mtcl | R | 
浮 点 移 (8 或 者 b) |movif | R | 

如 果 零 则 浮 点 移 〈(s 或 者 48) |movzf | R | 
_ 如 果 非 零 则 浮 点 移 (或 者 9) |movnf | R | 
学 点 平方 根 (8 或 者 b) |sqrtf | R | 
学 点 绝对 值 (s 或 者 4) |absf | R | 

浮 点 变 号 〈s 或 者 d) negf | R | 
学 点 转换 (w、s 或 者 d) |evitf | R | 

浮 点 比较 (s 或 者 d) cxnf | R | 


图 3-25 保留 的 MIPS-32 和 伪 MIPS 指令 集 


eg (s) 或 者 (a) 精度 浮 点 指令 ， s 代表 有 符号 和 无 符号 (uw) 版 本 。MIPS-32 也 有 浮 点 指令 ， 包括 乘 
pA/ madd.f/msub.f) 、 向 上 舍 人 (ceil.f) 、 截 断 (trunc. 们 、 舍 人 df) 和 ip.f), 
线 表示 这 个 字母 表示 数据 类 型 。 | 0 
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图 3-26 给 出 了 SPEC2006 整数 和 浮 点 基准 测试 程序 中 MIPS 指令 的 使 用 率 。 所 有 列 出 来 的 指 
令 至 少 占 执行 指令 的 0.3%。 




















































NMIPS 核心 指令 名 称 | 整数 | 浮 点 浮 点 
法 | | 0.0% |0.0% 
0.0% 

法 cau |52% |3.5% 

0.0% 
或 ”| |40% |12% | 党 点 单 实 朗 除 ”|aivs | 0.0% |0.2% | 
|wor |04% |02% | 学 点 双 酉 朗 丰 字 | sd |0.0% |49% | 
和 |srl |11% |05% | 泛 点 间 精 让 字 | ss |0.0% |11% 
了 |] |76% |20w | 学 点 双 精 度 比 袍 |cxa | 00% |0.6% | 
i 0%| 条 ml [00% |02%| 
sb |o6% |oow| MA | sr |05% |03%| 
SMW bed |86% |22%| 到 字 [in 

不 SB 加 |bne |84% |14% | 存 # 字 |sn 

洛克 转 ej | 02% 


无 符 叶 比较， 小 于 则 置 位 sltu 


无 符号 比较 ， 小 于 立即 数 则 署 位 “| sltiu 


3-26 在 SPEC2006 整数 和 浮 点 数 中 MIPS 指令 的 使 用 频率 
表 中 的 所 有 指令 要 占 到 至 少 1% 的 份额 。 伪 指令 在 执行 前 转化 为 MIPS-32 指令 ， 所 以 这 里 没有 出 现 。 


注意 ， 尺 管 程序 员 和 编译 器 编写 人 员 可 能 为 了 更 多 的 选项 而 使 用 MIPS-32，MIPS 核心 指令 


主宰 了 SPEC2006 整数 程序 ， 而 整数 核心 以 及 算术 核心 主宰 了 SPEC2006 浮 点 程序 ， 正 如 下 表 
所 列 。 








Er 有 
Ws 术 必 31% 
WIPS 算术 术 66% 
出 人 的 MIPS -3 3% 


本 书 的 剩余 部 分 ,我们 专注 于 MIPS 核心 指令 一 一 除了 乘法 、 除 法 以 外 的 整 型 指令 集 ， 以 使 
计算 机 设计 变 得 易于 解释 。 正 如 你 所 看 到 的 ，MIPS 核心 包含 了 绝 大 多 数 流行 的 MIPS 指令 ; 我 们 
认为 ， 理 解 运行 MIPS 核心 的 计算 机 将 会 给 你 足够 的 背景 知识 ， 去 理解 更 为 复杂 的 计算 机 。 


a*3. 10 拓展 阅读 
Gresham 法 则 (“ 劣 币 驱逐 良 币 ”) ， 对 于 计算 机 则 是 “ 快 的 淘汰 慢 的 ， 即 使 快 的 是 错误 的 。” 
——W. Kahan, 1992 
绝 不 要 放弃 ， 绝 不 要 ,永远 永远， 不 要 放弃 一 一 任何 事情 ,不论 大 小 一 一 绝 不 要 放弃 。 
一 一 温 斯 顿 . 丘吉尔 ， 在 Harrow 学 校 的 演讲 ，1941 
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本 节 回 洲 到 冯 . 庄 依 曼 来 纵览 浮 点 历史 ,包括 有 争议 的 IEEE 标准 的 令 人 惊讶 的 成 就 ， 以 及 
x86 的 80 位 浮 点 堆栈 结构 的 基本 原理 。 见 CD 上 3. 10 节 。 
3. 11 练习 题 


习题 3.1 z 
本 书 介绍 了 怎样 对 二 进 制 和 十 进 制 数 做 加 减法 。 然 而 ， 其 他 数字 系统 在 计算 机 中 也 很 流行 。 八 


b, 0147 | 3457 


3.1.1 [5] <3.2 >A 和 B 如 果 是 12 位 的 无 符号 八进制 数 ， 它 们 的 和 是 多 少 ? 结果 用 八进制 表示 。 给 出 你 的 
计算 过 程 。 

3.1.2 15] <3.2>A 和 B 如 果 是 12 位 的 有 符号 八进制 数 并 以 符号 - 数值 的 形式 存储 ， 它 们 的 和 是 多 少 ? 
结果 用 八进制 表示 。 给 出 你 的 计算 过 程 。 

3.1.3 [10] <3.2 > 假设 A 是 无 符号 的 ， 将 A 转换 为 十 进 制 数 。 假 设 A 是 以 符号 -数值 的 形式 存储 ， 再 做 
一 次 转换 。 给 出 你 的 计算 过 程 。 
下 表 也 给 出 了 两 组 八进制 数 。 


| 4 | B 

3.1.4 .5] <3.2>A 和 B 如果 是 12 位 的 无 符号 八进制 数 ， 它 们 的 差 是 多 少 ? 结果 用 八进制 表示 。 给 出 你 的 
计算 过 程 。 

3.1.5 [5] <3.2 >A 和 了 如 果 是 12 位 的 有 符号 八进制 数 并 以 符号 -数值 的 形式 存储 ， 它 们 的 差 是 多 少 ? 结 
果 用 八进制 表示 。 给 出 你 的 计算 过 程 。 

3.1.6 [10」 <3.2 > 将 A 转换 为 二 进 制 数 。 为 什么 在 计算 机 里 以 8 为 基数 (八进制 ) 表达 数值 是 种 有 吸 
引力 的 数字 系统 ? 


习题 3.2 


在 计算 机 里 用 十 六 进 制 (基数 为 16〉 表达 数值 也 是 一 种 常用 的 数字 系统 。 事实 上 , 它 比 八进制 更 流 
行 。 下 表 给 出 了 两 组 十 六 进 制 数 。 


| B 


a. DD17 
b. BAID 3617 


115] <3.2>A 和 B 如 果 是 16 位 的 无 符号 十 六 进 制 数 ， 它 们 的 和 是 多 少 ? 结果 用 十 六 进 制 表示 。 给 出 
你 的 计算 过 程 。 

255] <3.2 >A 和 BB 如 果 是 16 位 的 有 符号 十 六 进 制 数 并 以 符号 - 数值 的 形式 存储 ， 它 们 的 和 是 多 少 ? 
结果 用 十 六 进 制 表示 。 给 出 你 的 计算 过 程 。 

10] <3.2 > 假设 A 是 无 符号 的 ， 将 A 转换 为 十 进 制 数 。 假 设 A 是 以 符号 - 数值 的 形式 存储 ， 再 做 
一 次 转换 。 给 出 你 的 计算 过 程 。 
下 表 也 给 出 了 两 组 十 六 进 制 数 。 
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BA7C 241A 
bh. AADF 47BE 


3.2.4 [5] <3.2 >A 和 B 如 果 是 16 位 的 无 符号 十 六 进 制 数 ， 它 们 的 差 是 多 少 ? 结 采 用 十 六 进 制 表 示 。 给 出 
你 的 计算 过 程 。 

3.2.5 [5] <3.2>A 和 B 如 果 是 16 位 的 有 符号 十 六 进 制 数 并 以 符号 -数值 的 形式 存储 ,它们 的 差 是 多 少 ? 
结果 用 十 六 进 制 表示 。 给 出 你 的 计算 过 程 。 

3.2.6 [10] <3.2> 将 A 转 换 为 二 进 制 数 。 为 什么 在 计算 机 里 以 16 为 基数 〈 十 六 进 制 ) 表达 数值 是 一 种 有 
吸引 力 的 数字 系统 ? 


习题 3.3 


在 给 定 字 的 宽度 的 情况 下 ， 如 果 结 果 太 大 而 不 能 正确 表示 ， 则 发 生 上 溢 。 如 果 数 太 小 而 不 能 正确 表示 ， 
则 发 生 下 洲 一 一 例如 ， 在 做 有 符号 算术 时 产生 了 负 结 果 ( 将 两 个 负 整 数 相 加 ， 产 生 正 结果 ， 这 种 情况 也 经 
常 被 称 为 下 滋 。 但 在 本 书 中 ， 我 们 将 其 称 为 上 滋 ) 。 下 表 给 出 了 两 组 十 进 制 数 。 


5 
a | 9 | 90 
| 44 


3.3.1 [5]<3.2> 假 设 A 和 B 是 8 位 无 符号 十 进 制 整数 ， 计 算 A -B。 有 上 溢 、 下 滋 还 是 都 没有 ? 
3.3.2 [5]<3.2> 假 设 A 和 B 是 8 位 有 符号 十 进 制 整数 并 以 符 导 - 数值 的 形式 存储 ， 计 算 A+B。 有 上 溢 、 


下 溢 还 是 都 没有 ? 
3.3.3 [5] <3.2> 假 设 A 和 B 是 8 位 有 符号 十 进 制 整数 并 以 符号 -数值 的 形式 存储 ， 计 算 A -B。 有 上 汶 、 
下 洲 还 是 都 没有 ? 
下 表 也 给 出 了 两 组 十 进 制 数 。 
B 


3.3.4 [10j<3.2> 假 设 A 和 B 是 8 位 有 符号 十 进 制 整数 并 以 补 码 的 形式 存储 ， 用 饱和 算术 计算 A+B。 结 
采用 十 进 制 表示 。 给 出 你 的 计算 过 程 。 

3.3.5 [10] <3.2 > 假设 A 和 B 是 8 位 有 符号 十 进 制 整数 并 以 补 码 的 形式 存储 ， 用 饱和 算术 计算 A-B。 结 
采用 十 进 制 表示 。 给 出 你 的 计算 过 程 。 

3.3.6 [10] <3.2 > 假设 A 和 B 是 8 位 无 符号 十 进 制 整数 ， 用 饱和 算术 计算 A + B。 结 果 用 十 进 制 表示 。 给 


出 你 的 计算 过 程 。 
习题 3.4 
让 我 们 更 详细 地 了 解 乘 法 。 我 们 使 用 下 表 中 的 数字 。 
4 | B 
| 3 
» | 04 


3.4.1 [20] <3.3 > 用 图 3-4 中 的 硬件 结构 计算 6 位 的 八进制 无 符号 整数 A 和 B 的 积 ， 并 给 出 一 个 类 似 于 图 
3-7 中 的 表 。 你 需要 给 出 每 一 步 中 各 个 寄存 器 的 值 。 
3.4.2 [20] <3.3 > 用 图 3-6 中 的 硬件 结构 计算 8 位 的 十 六 进 制 无 符号 整数 A 和 了 的 积 ， 并 给 出 一 个 类 似 于 
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图 3-7 中 的 表 。 你 需要 给 出 每 一 步 中 各 个 寄存 器 的 值 。 
3.4.3 [60] <3.3 > 用 图 3-4 中 的 方法 计算 无 符号 整数 A 和 B 的 积 ， 写 出 MIPS 汇编 程序 。 
下 表 给 出 两 组 八进制 数 。 
: 
07 
3.4.4 [30] <3.3 > 当 进行 有 符号 数 乘法 时 ， 一 种 获得 正确 结果 的 方法 是 首先 将 被 乘 数 和 乘 数 转 化 为 正 数 ， 
并 保留 其 原始 符号 ， 然 后 再 相应 地 调整 最 终结 果 。 用 图 3-4 中 的 硬件 结构 计算 A 和 B 的 积 ， 并 给 出 
一 个 类 似 于 图 3-7 中 的 表 。 你 需要 给 出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 以 6 位 的 符号 - 
数值 格式 存储 的 。 
3.4.5 [30] <3.3 > 当 右 移 一 位 寄存 器 时 ， 有 数 种 方法 决定 移 人 的 位 是 多 少 。 它 可 以 总 是 0， 或 者 总 是 虐 
或 者 是 右边 移出 的 那 位 (循环 移 位 )， 或 者 是 简单 地 将 最 左边 的 位 保留 下 来 〈 称 为 算术 右 移 ， 因 为 
它 保留 了 被 移 位 数 的 符号 。) 用 图 3-6 中 的 硬件 结构 计算 6 位 的 补 码 数 A 和 B 的 积 ， 并 给 出 一 个 类 似 
于 图 3-7 中 的 表 。 右 移 采 用 算术 右 称 。 注 意 ,， 文 中 描述 的 算法 需要 做 一 些 修改 才能 做 这 件 工 作 一 一 
特别 是 ， 如 果 乘 数 是 负数 时 ， 会 是 不 同 的 做 法 。 给 出 每 一 步 中 各 个 寄存 器 的 值 。 
3.4.6 [60] <3.3 > 写 出 MIPS 汇编 程序 ， 用 来 计算 有 符号 整数 A 和 了 的 积 。 声 明 你 用 的 是 练习 题 3.4.4 的 
方法 还 是 练习 题 3. 4. 5 的 方法 。 


习题 3.5 


有 很 多 原因 促使 我 们 设计 更 快 的 乘法 器 。 有 许多 不 同 的 方法 可 以 实现 这 个 目标 。 在 下 表 中 ，A 代表 整 
数 的 位 宽 ，B 代表 了 执行 一 步 操作 所 需要 的 时 间 。 


A (位 宽 ) B (时 间 单 位 ) 


3tu 


b. 7tu 


3.5.1 L10] <3.3 > 计算 采用 图 3-4 和 图 3-5 中 的 方法 来 执行 乘法 所 需要 的 时 间 。 设 整数 位 宽 是 A， 每 步 操 
作 需 B 个 单位 时 间 。 假 设 在 第 1a 步 中 ， 无 论 是 否 加 了 被 乘 数 还 是 加 0， 加 法 都 得 到 执行 。 再 假设 寄 
仓 占 已 经 初始 化 过 了 (你 只 需要 计算 执行 乘法 循环 本 身 所 需要 的 时 间 )。 如 果 是 在 硬件 中 执行 ， 对 
敏 乘 数 和 乘 数 的 移 位 可 以 同时 进行 ;如 果 是 在 软件 中 执行 ， 则 会 一 个 做 完 再 做 下 一 个 。 对 每 种 情况 
都 给 出 解答 。 

3.5.2 [10.<3.3> 计 算 采用 书 中 的 方法 〈31 个 垂直 的 加 法 堆栈 ) 来 执行 乘法 所 需要 的 时 间 。 设 整数 位 宽 
是 A， 一 个 加 法 需 B 个 单位 时 间 。 

3.5.3 [20] <3.3 > 计算 采用 图 3-8 中 的 方法 来 执行 乘法 所 需要 的 时 间 。 设 整数 位 宽 是 A， 一 个 加 法 需 B 个 
单位 时 间 。 


习题 3.6 


在 本 练习 中 ， 我 们 将 看 看 几 个 其 他 的 办 法 来 提高 乘法 性 能 ， 其 主要 是 基于 多 执行 移 位 和 少 执行 算术 操 
作 的 思想 。 下 表 给 出 两 组 十 六 进 制 数 。 


1 5 


6.1 20] <3.3> 正 如 书 中 的 讨论 ， 一 种 增强 性 能 的 办 法 是 做 一 次 移 位 和 加 法 来 代替 一 次 实际 的 乘法 . 
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例如 ， 因 为 9x6 可 以 写成 (2 x2 x2+1) x6， 所 以 我 们 可 以 通过 将 6 左 移 3 次 再 加 上 6 来 计算 9 x 
6。 给 出 用 移 位 和 加 /减法 来 计算 AxB 的 最 好 的 方法 。 假 设 A 和 B 都 是 8 位 无 符 忆 整数 。 

3.6.2 [20] <3.3 > 给 出 用 移 位 和 加 法 来 计算 A xB 的 最 好 的 方法 。 假 设 A 和 B 都 是 8 位 有 无 符号 整数 旦 以 
符号 -数值 的 形式 存储 。 

3.6.3 [60] <3.3 > 写 出 MIPS 汇编 程序 ， 用 来 计算 有 符号 整数 的 相 乘 ， 使 用 练习 题 3. 6. 1 中 描述 的 移 位 和 


加 法 。 
下 表 再 给 出 两 组 十 六 进 制 数 。 
; 


3.6.4 [30] <3.3 > Booth 算法 是 另 一 种 做 乘法 的 方法 ， 其 可 以 减少 所 需 的 算术 操作 次 数 。 这 个 算法 已 经 出 
现 许 多 年 了 ， 关 于 它 如 何 工作 的 细节 可 以 在 网 上 找到 。 它 的 基本 原理 是 假设 一 次 移 位 所 需 时 间 要 少 
于 加 法 或 者 减法 ， 基 于 此 来 减少 所 需 的 算术 操作 次 数 。 它 通过 辨识 0 和 1 的 序列 来 工作 ， 并 且 在 辨 
识 的 网 时 执行 移 位 。 找 出 这 个 算法 的 描述 ， 并 详细 地 分 析 它 是 如 何 工作 的 。 

3.6.5 [30j <3.3 > 使 用 Booth 算法 ， 逐 步 给 出 A 和 B 相 乘 的 结果 。 假 设 A 和 了 B 都 是 8 位 补 码 整数 ， 以 十 六 


进 制 的 格式 存储 。 
3.6.6 [60] <3.3 > 写 出 MIPS 汇编 程序 ， 用 来 执行 A 和 B 的 相 乘 ， 乘 法 采用 Booth 算法 。 
习题 3.7 
让 我 们 更 详细 地 了 解除 法 。 我 们 使 用 下 表 中 的 八进制 数 。 
; 
a 23 
b. 44 


3.7.1 [20] <3.4 > 用 图 3-9 中 的 硬件 结构 计算 A 除 以 B， 并 给 出 一 个 类 似 于 图 3-11 中 的 表 。 你 需要 给 出 
每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 无 符号 整数 。 

3.7.2 [30]<3.4> 用 图 3-12 中 的 硬件 结构 计算 A 除 以 B， 并 给 出 一 个 类 似 于 图 3-11 中 的 表 。 你 需要 给 出 
每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 无 符号 整数 。 这 个 算法 使 用 一 个 和 图 3-10 中 稍微 不 
同 的 方法 。 这 个 算法 你 可 能 会 认为 很 难 ， 做 一 次 或 者 两 次 试验 ， 或 者 去 网 上 寻找 办 法 来 让 它 正确 工 
作 。( 提 示 : 一 种 可 能 的 解决 方案 是 利用 图 3- 12 中 暗示 的 那个 余数 寄存 器 既 可 右 移 也 可 左 移 的 
事实 。) 

3.7.3 [60] <3.4> 用 图 3-9 中 的 方法 计算 A 和 B 相 除 ， 写 出 MIPS 汇编 程序 。 假 设 A 和 B 都 是 6 位 无 符号 
整数 。 

下 表 给 出 两 组 八进制 数 。 


B 


b. S1 


374130j <3.4 > 用 图 3-9 中 的 硬件 结构 计算 A 除 以 B， 并 给 出 一 个 类 似 于 图 3-11 中 的 表 。 你 需要 给 出 
每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 有 符号 整数 并 以 符号 - 数值 的 形式 存储 。 要 包括 如 
何 计算 商 和 余数 的 符号 。 

3.7.5 30] <3.4 > 用 图 3-12 中 的 硬件 结构 计算 A 除 以 B， 并 给 出 一 个 类 似 于 图 3-11 中 的 表 。 你 需要 给 出 
每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 了 都 是 6 位 有 符号 整数 并 以 符号 - 数值 的 形式 存储 。 要 包括 如 
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何 计算 商 和 余数 的 符号 。 
3.7.6 [60] <3.4 > 用 图 3-12 中 的 方法 计算 A 和 B 相 除 ， 写 出 MIPS 汇编 程序 。 假 设 A 和 了 都 是 有 符号 


整数 。 


习题 3. 8 
图 3-10 描述 了 恢复 除 算法 。 因 为 将 除数 从 余数 中 减 去 时 可 能 产生 负 结 果 ， 所 以 需要 将 除数 加 回 到 余数 
(从 而 恢复 了 数值 ) 。 然 而 ， 有 些 算 法 可 以 去 掉 这 个 多 余 的 加 法 ， 可 以 在 网 上 进行 相关 的 搜索 。 我 们 用 下 表 
中 的 两 组 八进制 数 来 分 析 此 类 算法 。 
a 
3. 8. 1 [30] <3.4 > 用 不 恢复 除 算法 (nonrestoring division) 来 计算 A 除 以 B， 并 给 出 一 个 类 似 于 图 3-11 中 
的 表 。 你 需要 给 出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 无 符号 整数 。 
3. 8.2 [60] <3.4 > 用 不 恢复 除 算法 计算 A 除 以 B， 写 出 MIPS 汇编 程序 。 假 设 A 和 B 都 是 6 位 有 符号 ( 补 
码 ) 整数 。 
3.8.3 [60] <3.4 > 怎么 比较 恢复 和 不 恢复 除法 的 性 能 ? 通过 计算 每 种 A 除 以 B 的 算法 所 需要 的 步 数 来 论 
证 。 假 设 A 和 B 都 是 6 位 有 符号 (符号 -数值 ) 整数 。 可 以 写 一 个 执行 恢复 和 不 恢复 除法 的 程序 。 
下 表 再 给 出 两 组 八进制 数 。 
4 
一 一 一 2 
3. 8.4 [30」 <3.4 > 用 不 执行 除 算法 (nonperforming division ) 来 计算 A 除 以 B， 并 给 出 一 个 类 似 于 图 3-11 
中 的 表 。 你 需要 给 出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 无 符号 整数 。 
3.8,5 [60] <3.4 > 用 不 执行 除 算法 计算 A 除 以 B， 写 出 MIPS 汇编 程序 。 假 设 A 和 B 都 是 6 位 有 符号 补 码 
整数 。 
3.8.6 [60] <3.4 > 怎么 比较 不 执行 和 不 恢复 除法 的 性 能 ? 通过 计算 每 种 A 除 以 B 的 算法 所 需要 的 步 数 来 


论证 。 假 设 A 和 B 都 是 6 位 有 符号 整数 并 以 符号 - 数值 的 形式 存储 。 可 以 写 一 个 采用 不 执行 和 不 恢 
复 除 法 的 程序 。 


习题 3.9 


除法 是 很 耗 时 的 和 困难 的 ， 因 此 《CRAY T3E Fortran 优化 指南 》 讲 到 ; “对 除法 最 好 的 策略 就 是 尽 可 


能 地 避免 使 用 它 。” 这 个 练习 是 检查 下 面 两 个 执行 除法 的 不 同 策略 。 
恢复 除法 
b. SRT 除法 


3.9.1 [30] <3.4 > 详细 地 描述 算法 。 
3.9.2 [60] <3.4 > 用 流程 图 (或 者 一 段 高 级 语言 ) 来 描述 算法 的 工作 原理 。 
3.9.3 [60] <3.4> 写 一 段 MIPS 汇编 程序 ， 用 来 完成 使 用 这 种 算法 的 除法 。 


习题 3. 10 


在 汉 ， 诺 依 曼 体系 结构 中 ,一 组 数 本 身 是 没有 任何 含义 的 。 位 模式 代表 的 含义 完全 依赖 于 如 何 使 用 它 
们 。 下 表 以 十 六 进 制 给 出 两 个 位 模式 。 
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3. 0x24A60004 
b. OxAFBFO000 


3.10.1 [5] <3.5 > 如 果 是 补 码 整数 ， 则 这 些 位 模式 代表 的 十 进 制 是 多 少 ? 如 果 是 无 符号 整数 呢 ? 

3.10.2 [10] <3.5 > 如 果 这 些 位 模式 放 在 指令 寄存 器 中 ， 那 么 将 执行 什么 MIPS 指令 ? 

3.10.3 [10] <3.5 > 如果 是 浮 点 数 ， 则 这 些 位 模式 代表 的 十 进 制 数 是 多 少 ? 使 用 IEEE 754 标准 。 
下 表 给 出 十 进 制 数 。 


， ~1609.5 
hb. -938. 8125 


3.10.4 [10」 <3.5 > 写 出 这 些 十 进 制 数 的 二 进 制 表达 。 设 采用 IEEE 754 单 精度 格式 。 

3.10.5 [10」 <3.5 > 写 出 这 些 十 进 制 数 的 二 进 制 表达 。 设 采用 IEEE 754 双 精 度 格式 。 

3.10.6 [10] <3.5 > 与 出 这 些 十 进 制 数 的 二 进 制 表达 。 设 采用 IBM 单 精度 格式 存储 (基数 为 16 而 不 是 2， 
有 7 位 指数 位 ) 。 


习题 3. 11 


在 下 EE 754 浮 点 标准 中 ， 指 数 采用 “ 偏 阶 ”〈 也 叫 “ 余 - N”") 的 格式 存储 。 选 用 这 个 方法 的 原因 是 我 
们 想 要 全 零 的 模式 能 够 尽 可 能 地 接近 零 。 因 为 使 用 了 隐 含 1， 所 以 如 果 我 们 用 补 码 来 表示 指数 ， 则 一 个 全 
零 的 模式 可 能 就 是 1! ( 记 住 ， 任 何 数 的 0 次 方 为 1， 故 1. 0" = 1。) IEEE 754 标准 中 有 许多 特性 来 帮助 浮 点 
单元 运算 得 更 快 。 然 而 ， 在 许多 老式 的 机 器 中 ， 浮 点 计算 采用 软件 处 理 ， 因 此 也 有 其 他 的 格式 被 使 用 。 下 
表 给 出 十 进 制 数 。 


a. 5. 00736125 x 105 
b. -2.691650390625 x 10-? 


3.11.1 [20] <3.5 > 写 出 二 进 制 位 模式 。 设 采用 一 种 类 似 DEC PDP-8 使 用 的 格式 ( 左 12 位 是 以 补 码 形 式 
存储 的 指数 ， 而 右 24 位 是 以 补 码 形式 存储 的 尾数 。) 没有 隐 含 1。 同 IEEE 754 标准 的 单 精度 和 双 精 
度 比 较 ， 评 估 这 个 36 位 位 模式 的 范围 和 精确 度 。 

.11.2 [20] <3.5 > NVIDIA 采用 一 种 “ 半 ” 格 式 ， 其 类 似 于 IEEE 754 但 只 有 16 位 宽 。 最 左边 仍 为 符号 
位 ， 指数 有 5 位 宽 且 以 余 -16 (excess -16) 的 形式 存储 ， 尾 数 有 10 位 宽 。 具有 隐 含 1。 写 出 这 
种 格式 的 二 进 制 位 模式 。 同 IEEE 754 标准 的 单 精 度 比 较 ， 评 佑 这 个 16 位 位 模式 的 范围 和 精 
确 度 。 

3.11.3 [20] <3.5 > 惠普 2114、2115 和 2116 采用 这 样 一 种 格式 ， 其 最 左边 16 位 以 补 码 形式 存储 着 尼 
数 ， 紧 跟着 在 另 一 个 16 位 域 里 ， 左 边 8 位 是 尾数 的 扩展 (使 尾数 达到 24 位 宽 ) ， 右 边 8 位 表示 
指数 。 然 而 ， 作 为 一 种 有 趣 的 交叉 ， 指数 以 符号 - 数值 的 形式 存储 日 符号 位 在 最 右 端 ! 写 出 这 种 
格式 的 二 进 制 位 模式 。 没 有 陷 含 1。 同 IEEE 754 标准 的 单 精度 比较 ， 评 估 这 个 32 位 位 模式 的 范 
围 和 精确 度 。 

下 表 给 出 两 组 十 进 制 数 。 


B 


x | -3.90625 x 107! 


b. 6. 391601562 x 10 -1! 


3.11.4 [20] <3.5 > 手 算 A 和 B 的 和 , 设 A 和 B 以 习题 3.11.2 中 提 到 的 16 位 NVIDIA 格式 存储 (也 可 以 
看 书 中 的 描述 ) 。 假 设 有 保护 位 、 舍 人 位 和 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 会 人 的 模式 。 给 出 所 有 
步骤 。 
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3.11.5 [60] <3.5> 写 出 计算 A 和 B 的 和 的 MIPS 汇编 程序 , 设 A 和 B 以 习题 3.11.2 中 提 到 的 16 位 
NVIDIA 格式 存储 〈 也 可 以 看 书 中 的 描述 ) 。 假 设 有 保护 位 、 舍 人 位 和 粘贴 位 ， 并 采用 向 最 靠近 的 
偶数 伟人 的 模式 。 

3.11.6 [60] <3.5 > 写 出 计算 A 和 了 B 的 和 的 MIPS 汇编 程序 , 设 A 和 B 以 习题 3. 11.1 中 提 到 的 格式 存储 。 
修改 求 和 程序 ， 设 采用 习题 3. 11. 3 中 提 到 的 格式 。 哪 种 格式 程序 员 更 容易 处 理 ? 和 IEEE 754 格式 
相 比 呢 ? (在 这 个 问题 中 不 要 担忧 烙 同 位 。) 


习题 3. 12 
浮 点 乘 比 起 浮 点 加 更 复杂 和 更 有 挑战 性 ,但 两 者 和 浮 点 除 相 比 又 差 了 许多 。 


3.12.1 [20] <3.5> 手 算 A 和 B 的 积 , 设 A 和 B 以 习题 3.11.2 中 提 到 的 16 位 NVIDIA 格式 存储 (也 可 以 
看 书 中 的 描述 ) 。 假 设 有 保护 位 、 舍 人 位 和 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 含 人 的 模式 。 给 出 所 有 
步骤 ; 然而 ， 作 为 书 中 已 经 做 过 的 例子 ,你 可 以 以 人 们 可 读 的 格式 来 做 这 个 乘法 ， 而 不 用 习题 3.4 
到 3. 6 中 描述 的 技术 。 注 明 是 否 上 滋 或 者 下 溢 。 分 别 以 16 位 模式 和 十 进 制 数 写 出 你 的 答案 。 你 的 
结果 精确 吗 ? 和 你 用 计算 器 取得 的 结果 相 比 呢 ? 

3.12.2 [60] <3.5 > 写 出 计算 A 和 B 的 积 的 MIPS 汇编 程序 ， 设 A 和 B 以 IEEE 754 格式 存储 。 注 明 是 否 上 
游 或 者 下 溢 。( 记 住 ，IEEE 754 假设 有 保护 位 、 售 人 位 和 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 舍 人 的 
模式 。) 

3. 12.3 [60] <3.5 > 写 出 计算 A 和 B 的 积 的 MIPS 汇编 程序 ， 设 A 和 B 以 习题 3. 11. 1 中 提 到 的 格式 存储 。 
修改 求 积 程序 ， 设 采用 习题 3. 11. 3 中 提 到 的 格式 。 哪 种 格式 程序 员 更 容易 处 理 ? 和 IEEE 754 格式 
相 比 呢 ? 〈 在 这 个 问题 中 不 要 担忧 粘贴 位 。) 


下 表 再 给 出 两 组 十 进 制 数 。 
. 


3. 12.4 [60] <3.5 > 手 算 A 除 以 B。 给 出 必要 的 步骤 。 假 设 有 保护 位 、 舍 人 位 和 粘贴 位 ， 并 在 必要 时 使 用 。 
以 16 位 浮 点 格式 和 十 进 制 格式 给 出 最 终 的 结果 ， 并 比较 十 进 制 结果 和 用 计算 器 得 到 的 结果 。 
Livermore Loops 是 从 劳伦斯 . 利 弗 英 尔 实验 室 的 科学 计算 程序 中 摘出 的 浮 点 密集 型 核心 组 件 。 下 表 给 
出 单独 的 核心 程序 。 你 可 以 在 http : //www. netlib. org/benchmark/livermore 找到 它们 。 


Livermore Loop 1 
b. Livermore Loop 7 


3. 12.5 [60] <3.5 > 用 MIPS 汇编 程序 写 出 循环 。 
3. 12. 6 [60] <3.5 > 详细 地 描述 用 数字 计算 机 执行 浮 点 除 的 技术 。 一 定 要 给 出 你 所 使 用 信息 来 源 的 参考 
文献 。 


习题 3. 13 


定点 整数 的 操作 正如 人 所 希望 的 那样 一 一 满足 交换 律 、 结 合 律 和 分 配 律 。 但 是 在 处 理 浮 点 数 时 却 并 不 
总 是 满足 。 首 先 看 一 下 结合 律 。 下 表 给 出 几 对 十 进 制 数 。 
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| 








-1.6360 x 104 1. 6360 x 104 


2. 865625 x 101 4. 140625 x 10-! 


3. 13.1 [20] <3.2，3.5, 3.6> 手 算 (A+B) +C, 设 A、B、C 都 以 习题 3. 11. 2 中 提 到 的 16 位 NYIDIA 格 
式 存 储 〈( 书 中 也 有 介绍 )。 假 设 有 一 位 保护 位 、 一 位 舍 和 信 位 和 一 位 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 
舍 入 的 模式 。 给 出 所 有 步 又， 并 以 16 位 浮 点 格式 和 十 进 制 格 式 给 出 你 的 答案 。 

3. 13.2 [20] <3.2, 3.5, 3.6> 手 算 A+ (B+C), 设 A、B、C 都 以 习题 3. 11.2 中 提 到 的 16 位 NVIDIA 格 
式 存储 (课文 中 也 有 介绍 )。 假 设 有 一 位 保护 位 、 一 位 会 人 位 和 一 位 粘贴 位 ， 并 采用 向 最 靠近 的 侦 
数 合 人 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 答案 。 

3.13.3 [10] <3.2，3.5，3.6 > 基于 习题 3. 13. 1 和 习题 3. 13. 2 中 的 答案 ， 看 看 是 否 (A+B) +C=A+ 

(B+C)? 
下 表 再 给 出 几 对 十 进 制 数 。 
TT | 
| 4721875x10' | 2809375x10 | 


3.13.4 [30」 <3.3, 3.5,， 3.6> 手 算 (AxB) xC, 设 A、B、C 都 以 习题 3. 11. 2 中 提 到 的 16 位 NVIDIA 格 
式 存储 〈 书 中 也 有 介绍 ) 。 假 设 有 一 位 保护 位 、 一 位 含 人 位 和 一 位 烙 贴 位 ， 并 采用 向 最 靠近 的 偶数 
舍 人 的 模式 。 给 出 所 有 步 又， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 答案 。 

3.13.5 [30j <3.3, 3.5, 3.6> 手 算 Ax(BxC), 设 A、B、C 都 以 习题 3. 11. 2 中 提 到 的 16 位 NVIDIA 格 
式 存储 〈 书 中 也 有 介绍 ) 。 假 设 有 一 位 保护 位 、 一 位 伟人 位 和 一 位 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 
会 人 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 答案 。 

3.13.6 [10] <3.3，3.5，3.6 > 基于 习题 3. 13. 4 和 习题 3. 13. 5 中 的 答案 ， 看 看 是 否 (AxB)xC=Ax 
(BxC)? 


习题 3. 14 
处 理 浮 点 数 时 并 不 只 是 交换 律 得 不 到 满足 。 还 有 其 他 古怪 的 事情 发 生 。 下 表 给 出 几 对 十 进 制 数 。 
4 | “ss 


3.14.1 [30] <3.2, 3.3, 3.5, 3.6 > 手 算 Ax(B+C), 设 A、B、C 都 以 习题 3.11.2 中 提 到 的 16 位 
NVIDIA 格式 存储 ( 书 中 也 有 介绍 )。 假 设 有 一 位 保护 位 、 一 位 会 入 位 和 一 位 粘贴 位 ， 并 采用 向 最 
靠近 的 偶数 合 和 人 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 答案 。 

3.14.2 [30] <3.2, 3.3, 3.5, 3.6> 手 算 (AxB)+(AxC), 设 A、B、 C 都 以 习题 3. 11.2 中 提 到 的 16 
位 NVIDIA 格式 存储 ( 书 中 也 有 介绍 )。 假 设 有 一 位 保护 位 、 一 位 会 入 位 和 一 位 粘贴 位 ， 并 采用 向 
最 靠近 的 偶数 会 人 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 答案 。 

3.14.3 [10] <3.2，3.3，3.5，3.6 > 基于 习题 3. 14. 1 和 习题 3. 14.2 中 的 答案 ， 看 看 是 否 (A xB)+(AxC)= 
Ax(B+C)? 

下 表 给 出 两 组 数 ， 每 组 包含 一 个 分 数 和 一 个 整数 。 





1. 2140625 x 101 















2. 50125 x 102 
3.575 x 101 




















9. 96875 x 101 
1. 0216 x 104 
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3.14.4 [10] <3.5 > 按照 EE 754 浮 点 格式 ， 写 出 A 的 位 模式 。 你 能 精确 表示 A 吗 ? 

3.14.5 [10] <3.2，3.3，3.5，3.6 > 如 果 将 A 自 加 B 次 得 到 多 少 ? A xB 是 多 少 ? 它们 相同 吗 ? 它们 应 该 
是 多 少 ? 

3.14.6 [60] <3.2，3.3，3.4，3.5，3.6 > 如 果 将 B 开 方 根 ， 再 加 上 自身 ， 得 到 多 少 ? 应 该 得 到 多 少 ? 分 
别 用 单 精度 和 双 精 度 浮 点 数 做 。( 写 一 个 程序 来 做 这 些 计算 .) l 


习题 3. 15 


在 尾数 域 中 使 用 二 进 制 编码 ,但 并 非 必须 如 此 。 例 如 ，IBM 在 他 们 的 浮 点 中 使 用 了 基数 为 16 的 数字 格 
式 。 也 有 其 他 一 些 可 能 的 方法 ， 每 种 都 有 自己 的 优点 和 缺点 。 下 表 给 出 了 两 个 分 数 ， 用 各 种 浮 点 格式 来 表达 。 


a. 172 
b. 179 


3.15.1 [10] <3.5，3.6 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 二 进 制 编码 的 尾数 (就 是 本 章 用 到 的 ) 。 假 
设 有 24 位 ， 并 且 不 需要 进行 规格 化 。 这 种 表达 精确 吗 ? 

3.15.2 [10] <3.5，3.6 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 BCD 编码 〈 基 10) 而 不 是 基 2 的 尾数 。 假 
设 有 24 位 ， 并且 不 需要 进行 规格 化 。 这 种 表达 精确 吗 ? 

3.15.3 [10] <3.5，3.6 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 基 15 编码 而 不 是 基 2 的 尾数 。( 基 16 编码 
使 用 符号 0 ~9 和 A ~ 了 F。 基 15 编码 使 用 0 ~9 和 A ~ 下。) 假设 有 24 位 ， 并 且 不 需要 进行 规格 化 。 这 
种 表达 精确 吗 ? 

3.1S.4 [10] <3.5，3.6 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 基 30 编码 而 不 是 基 2 的 尾数 。( 基 16 编码 
使 用 符号 0 ~9 和 A~F。 基 30 编码 使 用 0 ~9 和 A ~T。) 假设 有 20 位 ， 并 且 不 需要 进行 规格 化 。 这 
种 表达 精确 吗 ? 你 能 看 出 这 种 方法 有 什么 优点 吗 ? 

小 测验 答案 

3.2 节 C。 

3.5 节 CC。 
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处 理 - 莒 

在 关键 问题 上 ,没有 什么 细节 是 小 事 。 

一 一 法 国 谚语 
接口 
性 能 评价 
计算 机 的 五 大 经 典 部 件 

4.1 引言 

在 第 1 章 中 ， 我 们 看 到 一 台 计 算 机 的 性 能 由 三 个 关键 因 球 决定: 指令 数目 、 时 钟 周期 长 度 和 


每 条 指令 所 需 时 钟 周期 数 (CPI) 。 我 们 在 第 2 章 阐明 编译 器 和 指令 集 决定 了 一 个 程序 所 需 的 指 
令 数目 。 而 处 理 器 的 实现 方式 则 决定 了 时 钟 风 期 长 度 和 CPI。 在 本 章 中 ， 我 们 为 MIPS 指令 集 的 

本 章 包含 了 实现 一 个 处 理 器 所 需 的 原理 与 技术 知识 。 先 从 一 个 高 度 抽 象 和 简化 的 概述 开始 ， 再 
建立 数据 通路 并 进一步 构建 一 个 简单 的 处 理 器 以 实现 像 MIPS 这 样 的 指令 集 。 本 章 的 其 余部 分 还 包 
括 : 一 个 更 实际 的 流水 化 的 MIPS 实现 ， 以 及 实现 更 复杂 的 指令 集 〈 如 x86) 时 所 需要 的 # 

对 理解 指令 的 高 层 解释 及 其 对 程序 性 能 的 影响 感 兴趣 的 读者 ，4. 1 节 和 4. 5 节 给 出 
的 基本 解释 。4. 10 节 介绍 了 最 近 的 趋势 。4. 11 节 列 举 了 最 新 的 AMD Opteron X4 ( Barcelona 
处 理 器 作 例 子 。 这 几 节 提供 了 在 高 层次 理解 流水 线 概念 的 必要 要 育 景 知识 。 

对 希望 能 更 深入 地 理解 处 理 器 及 其 性 能 的 读者 ，4.3 节 、4.4 节 和 4.6 节 很 有 用 。 对 如 何 
立 一 个 处 理 器 感 兴趣 的 读者 可 以 阅读 4.2 节 、4.7 节 、4.8 节 和 4.9 节 。 对 现代 硬件 设计 感 兴 
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的 读者 ， 可 以 参考 CD 中 的 4 12 节 ， 其 中 介绍 了 实现 硬件 时 使 用 的 硬件 设计 语言 与 CAD 工具 ， 
以 及 如 何 使 用 硬件 设计 语言 来 描述 一 个 流水 化 的 实现 。 它 对 于 理解 流水 化 硬件 执行 的 细节 有 很 
大 帮助 。 

4.1.1 一 个 基本 的 MIPS 实现 


我 们 将 要 设计 的 实现 方式 包含 了 MIPS 指令 集 的 一 个 核心 子 集 : 

。 存储 器 访问 指令 : 取 字 (1w) 和 存储 字 (sw)。 

。 算术 逻辑 指令 : 加 法 (add) 、 减 法 (sub) 、 与 运算 (AND) 、 或 运算 (oR) 和 小 于 则 

设置 (slt)。 

。 分 支 指令 : 相等 则 分 支 (beq) 和 跳 转 (j)， 我 们 放 到 最 后 实现 。 

这 个 子 集 没 有 包含 所 有 的 整数 指令 (如 不 包含 乘 、 除 指令 和 移 位 指令 等 )， 也 没有 包含 任何 
浮 点 指令 。 然 而 ， 使 用 该 子 集 可 以 说 明 在 建立 数据 通路 和 控制 通路 时 的 关键 原理 ， 并 可 以 在 此 基 
础 之 上 实现 其 他 指令 。 

在 学 习 此 实现 方式 时 ， 我们 将 能 够 有 机 会 看 到 指令 集 如 何 决 定 实现 方式 的 多 个 方面 ， 以 及 
实现 策略 如 何 影 响 计 算 机 的 时 钟 速度 和 CPI。 在 第 2 章 2.2 节 和 2.3 节 介 绍 的 许多 关键 设计 原理 ， 
如 “加 速 执行 常用 操作 ”和 “简单 源 于 规整 ”的 指导 思想 ， 都 将 体现 出 来 。 并 且 ， 本 章 中 用 于 
实现 MIPS 子 集 的 大 多 数 概念 与 很 多 计算 机 的 基本 构造 思想 是 一 致 的 ， 包 括 从 高 性 能 服务 器 到 通 
用 微 处 理 器 、 衣 人 式 处 理 器 等 各 式 各 样 的 计算 机 。 


4. 1.2 实现 方式 概述 


在 第 2 章 中 ， 我们 学 习 了 MIPS 的 核心 指令 ， 包 括 整数 算术 逻辑 指令 、 存 储 访 问 指令 及 分 支 
指令 。 这 些 指令 的 实现 过 程 大 致 相同 ， 而 与 具体 的 指令 类 型 无 关 。 实 现 每 条 指令 的 前 两 步 是 一 
样 的 : 

1) 程序 计数 器 (PC) 指向 指令 所 在 的 存储 单元 ， 并 从 中 取出 指令 。 

2) 通过 指令 字段 内 容 ， 选 择 读 取 一 个 或 两 个 寄存 器 。 对 于 取 字 指令 ， 只 需 读 取 一 个 寄存 
化 ， 而 其 他 大 多 数 指令 要 求 读 取 两 个 寄存 器 。 

这 两 步 之 后 ， 为 完成 指令 而 进行 的 步骤 则 取决 于 具体 的 指令 类 型 。 幸 运 的 是 ， 对 三 种 指令 类 
型 (存储 访问 、 算 术 逻 辑 、 分 支 ) 的 每 一 种 而 言 ， 其 动作 大 致 相同 ， 与 具体 指令 无 关 。MIPS 指 
令 集 的 简洁 和 规整 使 许多 指令 的 执行 很 相似 ， 因 而 简化 了 实现 过 程 。 

例如 ， 除 跳 转 指令 外 的 所 有 指令 在 读 取 寄 存 器 后 ， 都 要 使 用 算术 逻辑 单元 (ALU) 。 存 储 访 
癌 指 令 用 ALU 计算 地 址 ， 算 术 逻 辑 指令 用 ALU 执行 运算 ， 分 支 指令 用 ALU 进行 比较 。 在 使 用 
ALU 之 后 ， 完 成 不 同 指令 所 需 的 动作 就 有 所 不 同 了 。 存 储 访问 指令 需要 访问 内 存 以 便 读 取 和 存 
储 数据 。 算 术 罗 辑 指令 或 装载 指令 将 来 自 ALU 或 存储 器 的 数据 写 人 寄存 器 。 对 分 文 指令 ， 我 们 
需要 基于 比较 的 结果 决定 是 否 改变 下 一 条 指令 地 址 ; 如 果 不 修改 下 一 条 指令 地 址 ， 则 下 一 条 指 
令 地 址 默认 是 当前 指令 地 址 +4。 

图 4-1 给 出 了 一 种 MIPS 实现 的 抽象 视图 ， 图 中 主要 描述 不同 的 功能 单元 及 其 互 连 关系 。 
尽管 该 图 给 出 了 绝 大 多 数 数 据 在 处 理 器 中 的 流动 方式 ， 但 它 仍然 忽略 了 指令 执行 过 程 中 的 两 个 
重要 方面 。 

月 先 ， 在 图 4-1 中 的 许多 位 置 ， 茶 个 单元 的 数据 可 能 来 自 于 两 个 不 同 的 单元 。 例 如 ， 写 人 
PC 的 值 可 能 来 自 两 个 加 法 器 中 的 一 个 ， 写 人 寄存 器 堆 的 数据 可 能 来 自 ALU 或 数据 存储 器 ，ALU 
的 第 二 个 输入 可 能 来 自 寄 存 器 或 指令 中 的 立即 数字 段 。 实 际 上 ， 不 能 简单 地 直接 将 这 些 数据 线 
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连 在 一 起 ， 必 须 增 加 一 个 逻辑 单元 用 以 从 不 同 的 数据 来 源 中 选择 一 个 送 给 目标 单元 。 这 个 选择 
过 程 通常 是 由 一 个 叫 多 选 器 (multiplexor) 的 逻辑 单元 完成 的 ， 尽 管 该 单元 叫 数据 选择 器 可 能 更 
合适 。 光 盘 中 的 附录 C 详细 描述 了 多 选 器 根据 控制 信号 选择 不 同 输入 的 过 程 。 控 制 信号 主要 由 
当前 执行 指令 中 包含 的 信息 决定 。 





图 4-1 一 个 MIPS 子 集 实现 的 抽象 视图 ， 描 述 了 主要 功能 单元 及 其 连接 

所 有 指令 都 开始 于 使 用 程序 计数 器 获得 的 指令 存储 器 中 指令 的 地 址 。 在 取 到 指令 后 ， 指 令 所 使 用 的 寄存 器 
操作 数 由 指令 中 的 对 应 字段 决定 。 在 取 到 寄存 器 操作 数 之 后 ， 可 以 用 来 计算 存储 器 地 址 〈 对 于 存 取 类 指令 ) ， 
或 者 计算 算术 运算 结果 (对 于 整数 算术 逻辑 类 指令 ) ， 或 者 进行 比较 〈( 对 于 分 支 类 指令 ) 。 如 果 是 算术 逻辑 类 
指令 ，ALU 的 结果 必须 写 回 寄存 器 ; 如 果 是 存 取 类 指令 ，ALU 的 结果 可 作为 读 写 存储 器 的 地 址 。ALU 或 存储 
占 的 结果 可 写 回 寄存 器 堆 。 分 文 操作 需要 使 用 ALU 的 输出 来 决定 下 一 个 指令 地 址 ， 下 一 个 指令 地 址 可 能 来 自 
ALU (在 其 中 PC 值 与 分 支 偏 移 量 相 加 ) ， 也 可 能 来 自 加 法 器 (当前 PC 值 加 4) 。 连 接 功能 单元 的 粗 线 表 示 总 
线 ， 其 中 包含 多 个 信和 号。 箭头 用 来 指示 信息 流动 的 方向 。 因 为 信号 线 在 图 上 可 能 相交 ， 所 以 在 相交 信和 号 线 确 
实 相 连 时 用 一 个 黑 点 来 表示 。 


其 次 ， 图 4-1 中 的 许多 单元 的 控制 依赖 于 当前 执行 指令 的 类 型 。 例 如 ， 存 取 指 令 读 写 数据 存 
储 器 ， 装 载 指令 和 算术 逻辑 指令 写 人 寄存 器 堆 。 很 显然 ，ALU 根据 不 同 的 指令 执行 不 同 的 操作 ， 
就 像 我 们 在 第 2 章 中 提 到 的 那样 。( 光盘 中 的 附录 C 给 出 了 ALU 的 设计 细节 ) 。 类 似 于 多 选 器 ， 
这 些 操作 都 由 控制 信号 确定 ， 而 控制 信号 是 由 指令 的 某 些 字段 所 决定 的 。 

图 4-2 在 图 4-1 的 基础 上 增加 了 三 个 必需 的 多 选 器 和 主要 功能 单元 的 控制 信号 。 图 中 还 增加 
了 一 个 控制 单元 〈control unit) ， 它 以 指令 为 输入 ， 决 定 功能 单元 和 两 个 多 选 器 的 控制 信号 。 第 
三 个 多 选 器 用 来 决定 ， 是 将 PC +4 还 是 分 支 目的 地 址 写 人 PC， 该 多 选 器 根据 用 来 执行 beq 指令 
比较 的 ALU 的 Zero 输出 设置 。MIPS 指令 集 的 简单 与 规整 使 得 只 需 简 单 的 译 码 即 可 生成 控制 
信和 号 。 

在 本 章 后 面 的 部 分 ， 我 们 将 会 为 图 4-2 加 入 更 多 的 细节 ， 包 括 更 多 的 功能 单元 和 单元 间 的 连 
接 ， 并 增强 控制 单元 功能 以 控制 不 同类 型 的 指令 执行 过 程 。4. 3 节 和 4.4 节 描 述 了 每 条 指令 使 用 
一 个 时 钟 周期 的 简单 实现 方式 ， 它 将 遵循 图 4-1 和 图 4-2 的 一 般 形式 。 在 第 一 个 设计 中 ， 每 条 指 
令 在 一 个 时 钟 沿 开始 执行 ， 然 后 在 下 一 个 时 钟 沿 完成 执行 。 

尽管 这 种 方法 易于 理解 ， 但 是 并 不 实际 ， 因 为 时 钟 周期 必须 设置 为 足够 容纳 执行 时 间 最 长 
的 指令 。 在 设计 完 这 种 简单 计算 机 的 控制 后 ， 我 们 将 会 讨论 一 种 流水 的 实现 方式 及 其 带 来 的 复 
杂 性 和 异常 。 

小 测验 


图 4-1 和 图 4-2 包含 了 本 章 开始 给 出 的 计算 机 五 大 经 典 部 件 中 的 哪 几 个 ? 
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Smear 





sa dh | 


和 1 有 
eee nee rt ee en ee tt 


图 4-2 一 个 MIPS 子 集 的 基本 实现 ， 其 中 包含 了 必要 的 多 选 器 和 控制 信号 
最 上 面 的 多 选 器 控制 写 和 人 PC 的 值 (PC +4 或 分 支 目的 地 址 ) ， 该 多 选 器 由 一 个 门 控制 ， 该 门将 ALU 的 零 
输出 与 一 个 指示 是 否 为 分 支 指令 的 信号 相 “ 与 ”。 中 间 输 出 到 寄存 器 堆 的 多 选 器 ， 用 来 选择 将 被 写 人 寄存 器 
堆 中 的 是 ALU 的 输出 〈 算 术 逻 辑 指令 时 ) 还 是 数据 存储 器 的 输出 (装载 指令 时 ) 。 最 后 ， 最 下 面 的 多 选 器 决 
定 ALU 的 第 二 个 输入 是 来 自 寄 存 器 堆 〈 算 术 逻 辑 指令 或 分 支 指令 时 ) 还 是 指令 的 偏 移 量 字段 ( 存 取 指 令 
时 ) 。 新 增 的 控制 信号 直接 控制 ALU 的 操作 、 数 据 存储 器 读 写 和 寄存 器 堆 写 人 等 。 控 制 信号 在 图 中 用 灰色 线 
标识 出 来 。 


4.2 逻辑 设计 惯例 

在 考虑 计算 机 的 设计 时 ， 必 须 决 定 机 器 的 逻辑 实现 以 及 机 器 时 钟 。 本 节 将 继续 讨论 一 些 本 
章 经 常用 到 的 数字 逻辑 的 关键 思想 。 如 果 你 缺乏 数字 逻辑 方面 的 知识 ， 那 么 在 继续 学 习 之 前 看 
一 看 光盘 中 的 附录 C 将 有 所 帮助 。 

MIPS 实现 中 的 数据 通路 功能 部 件 包 括 两 种 不 同 的 逻辑 单元 ， 处 理 数据 值 的 单元 和 存储 状态 
的 单元 。 人 处 理 数据 值 的 单元 都 是 组 合 单 元 (combinational element)。 ， 它 们 的 输出 只 取决 于 当前 
的 输入 。 当 输入 相同 时 ， 组 合 单元 产生 的 输出 也 相同 。 出 现在 图 4-1 中 并 在 光盘 的 附录 C 中 详细 
论述 的 ALU 就 是 组 合 单元 。 因 为 其 没有 内 部 存储 功能 ， 当 给 定 一 组 输入 时 总 是 产生 同样 的 输出 。 

设计 中 的 其 他 单元 不 是 组 合 的 ， 而 是 包含 状态 的 。 如 果 一 个 单元 带 有 内 部 存储 功能 ， 它 就 包 
含 状态 ， 称 之 为 状态 单元 (state element)。， 因 为 关机 后 重启 计算 机 ， 通 过 恢复 状态 单元 的 原 值 ， 
计算 机 可 继续 运行 如 同 没有 断 电 -一样 。 也 就 是 说 ， 这 些 状态 单元 完全 描述 了 计算 机 的 状态 。 图 4- 
1 中 的 指令 存储 器 、 数 据 存储 器 和 寄存 器 都 是 状态 单元 。 

一 个 状态 单元 至 少 有 两 个 输入 和 一 个 输出 。 两 个 必要 的 输入 为 要 写 人 单元 的 数据 值 和 决定 
何 时 写 人 的 时 钟 信 号 。 状 态 单元 的 输出 提供 了 在 前 一 个 时 钟 信 号 写 和 人 单元 的 数据 值 。 例 如 ， 逻 辑 
上 最 简单 的 一 种 状态 单元 是 D 触发 器 (参见 光盘 中 的 附录 C) ， 它 有 两 个 输入 (一 个 数据 值 和 - 
个 时 钟 ) 和 一 个 输出 。 除 了 触发 器 ，MIPS 的 实现 中 还 用 了 另外 两 种 状态 单元 存储 器 和 寄存 器 ， 


日” 组 合 单 元 (combinational element) : 一 个 操作 单元 ， 如 与 门 或 ALU。 
加 ”状态 单元 (state element) ， 一 个 存储 单元 ， 如 寄存 器 或 存储 器 。 
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这 些 在 图 4-1 中 都 已 给 出 。 时 钟 用 于 决定 状态 单元 何 时 被 写 和 人。 状态 单元 随时 可 读 。 

包含 状态 的 逻辑 部 件 又 被 称 为 “时 序 的 ” (sequential ) ， 因 为 它们 的 输出 由 输入 和 内 部 状态 
共同 决定 。 例 如 ， 代 表 寄 存 器 的 功能 单元 的 输出 取决 于 所 提供 的 寄存 器 号 和 以 前 写 人 寄存 器 的 
内 容 。 组 合 单元 和 时 序 单 元 的 有 关 操 作 及 它们 的 结构 都 在 光盘 的 附录 C 中 有 详细 论述 。 

我 们 将 使 用 术语 有 效 ” (asserted) 。 表 示 信 和 号 为 逻辑 高 ， 无 效 ” (deasserted) 表示 信号 为 逻辑 低 。 
时 钟 方法 

时 钟 方法 ” ( clocking methodology) 规定 了 信和 号 可 以 读 出 和 写 人 的 时 间 。 规 定 信 号 读 写 的 时 
间 是 很 重要 的 ， 因 为 大 一 个 信号 同时 被 读 出 和 写 人 ， 则 所 读 出 的 信号 可 能 是 写 人 前 的 值 ， 也 可 能 
是 新 写 人 的 值 ， 甚 至 是 两 者 的 混合 。 显 然 ， 计 算 机 的 设计 中 不 能 允许 这 样 的 不 确定 性 。 时 钟 方法 
即 是 为 避免 这 种 情况 而 提出 的 。 

为 简单 起 见 ， 我 们 假定 采用 边沿 触发 的 时 钟 方法 ， 即 在 时 序 逻 辑 单 元 中 存储 的 所 有 值 都 只 
允许 在 时 钟 跳 变 的 边沿 时 改变 。 因 为 只 有 状态 单元 能 存储 数据 值 ， 所 有 的 组 合 逻辑 都 必须 从 状 
态 单元 集合 接收 输入 ， 并 将 输出 写 人 状态 单元 集合 中 。 其 输入 为 之 前 某 时 钟 周期 写 信 的 数据 ， 其 
和 输出 可 供 之 后 某 时 钟 周期 使 用 。 

图 4-3 摘 述 了 一 个 组 合 逻辑 单元 及 与 其 相连 的 两 个 状态 单元 。 组 合 逻辑 单元 的 操作 在 一 个 时 
钟 周期 内 完成 : 所 有 信号 在 一 个 时 钟 周 期 内 从 状态 单元 1 经 组 合 逻 辑 到 达 状 态 单元 2， 信 和 号 到 达 
状态 单元 2 所 需 的 时 间 决 定 了 时 钟 周期 的 长 度 。 

为 简单 起 见 ， 若 某 状 态 单元 在 每 个 有 效 的 时 钟 边 沿 都 进行 写 人 操作 ， 则 可 忽略 写 控制 信 
号 。 相 反 ， 若 某 状态 单元 不 是 每 个 周期 都 进行 修改 ， 那 么 它 就 需要 一 个 写 控制 信号 。 写 控制 信 
号 和 时 钟 都 是 输入 信号 ， 只 有 当 写 控制 信号 有 效 并 且 时 钟 边沿 到 来 时 ， 状 态 单元 才 改 变 状态 。 

使 用 如 图 4-4 所 示 的 一 种 边沿 触发 的 方法 可 以 在 一 个 时 钟 周期 内 读 出 一 个 寄存 器 的 值 并 使 之 
经 过 一 些 组 合 逻 辑 ， 同 时 将 别 的 值 写 人 该 寄存 器 。 选 择 在 时 钟 的 上 升 沿 还 是 下 降 沿 进行 写 操作 
无 关 紧 要， 因为 组 合 逻 辑 的 输入 只 有 在 所 规定 的 时 钟 边沿 才 可 能 发 生变 化 。 这 种 边沿 触发 时 钟 
方法 在 一 个 时 钟 周期 内 不 会 出 现 反馈 ， 图 4-4 中 的 逻辑 可 以 正确 地 工作 。 在 光盘 的 附录 C 中 ， 还 
介绍 了 其 他 的 一 些 时 序 约束 (如 建立 和 保持 时 间 ) 和 一 些 时 序 方法 。 


大 态 状态 ys 
- 状态 - 组 合 逻 加 
时 锦 周 期 一 | 


图 4-3 ”组合 逻辑 、 状 态 单元 和 时 钟 周期 的 图 4-4 一 种 边沿 触发 方式 ， 支 持 状态 单元 在 同一 个 
关系 时 钟 周期 内 同时 读 写 而 不 会 因 竞 争 而 出 现 中 
在 一 个 同步 的 数字 系统 中 ， 时 钟 信号 决定 了 数值 间 数 据 
何 时 写 人 状态 单元 。 在 有 效 的 时 钟 边沿 导致 状态 变 当然 ， 必 须 保 证 时 钟 周期 足够 长 ， 以 使 得 当 有 效 的 时 钟 边沿 
化 之 前， 状态 单元 的 输入 信号 必须 达到 稳定 (也 就 。 到 来 时 输入 已 经 稳定 状态 单元 的 改变 由 时 钟 边沿 触发 ， 所 以 
是 说 ， 状 态 单元 的 值 保持 不 变 ， 直 到 时 钟 沿 到 来 ) 。 。 不 可 能 在 一 个 时 钟 周 期 之 内 出 现 反馈 如 果 有 反馈 ， 这 个 设计 
本 章 假 定 所 有 状态 单元 (包括 存储 器 〉 都 是 边沿 触 。 ”就 不 能 正常 工作 。 本 章 和 下 一 章 的 设计 都 采用 边沿 触发 的 时 钟 
发 的 。 方法 ， 结 构 与 本 图 类 似 。 





有 效 (asserted) ;信号 为 逻辑 高 或 真 。 

无 效 ( deasserted) : 信号 为 逻辑 低 或 假 。 

时 钟 方法 (clocking methodology ) : 用 来 确定 数据 相对 于 时 钟 何 时 稳定 和 有 效 的 方法 。 

边沿 触发 的 时 钟 (edge-triggered clocking) : 一 种 所 有 的 状态 改变 发 生 于 时 钟 沿 的 时 钟 机 制 。 

控制 信号 (control signal) : 用 来 决定 多 选 器 选择 或 指示 功能 单元 操作 的 信号 ; 它 与 数据 信号 相对 应 ， 数 据 信 号 包 
含 由 功能 单元 操作 的 信息 。 


BO0n 
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对 32 位 MIPS 体系 结构 而 言 ， 几 乎 所 有 这 些 状 态 和 逻辑 单元 的 输 人 和 输出 都 为 32 位 ， 因 为 
处 理 器 处 理 的 大 多 数 数据 的 宽度 为 32 位 。 若 某 单元 的 输入 或 输出 不 是 32 位 ， 我 们 会 特别 指出 。 
图 示 中 用 粗 线 表示 总 线 ， 即 宽度 为 1 位 以 上 的 信号 。 有 时 要 把 几 根 总 线 合 起 来 构成 更 宽 的 总 线 ， 
例如 可 能 将 两 根 16 位 总 线 合成 一 根 32 位 总 线 。 在 这 种 情况 下 ， 总 线 标注 将 作出 相应 说 明 。 另 外 
还 加 上 箭头 以 指明 单元 间 数 据 传输 的 方向 。 最 后 ， 灰 色 线 表示 的 控制 信号 将 其 与 数据 信号 区 分 
开 来 ， 两 者 的 差别 将 随 本 章 的 进展 愈 趋 明显 。 


小 测验 
是 非 判断 ; 由 于 寄存 器 堆 在 一 个 时 钟 周 期 内 既 要 写 人 又 要 读 出 ， 所 以 任何 使 用 边沿 触发 方式 写 人 的 
MIPS 数据 通路 中 必须 包含 至 少 一 份 寄存 器 堆 的 备份 。 
精 解 : 还 有 一 种 64 位 版 本 的 MIPS 系统 结构 ， 其 中 绝 大 多 数 数据 通路 都 是 64 位 宽 。 另 外 ， 我 们 之 所 以 
要 使 用 术语 “有 效 ” 和 “无 效 ”"， 是 因为 数字 1 有 时 表示 逻辑 高 ， 有 时 表示 逻辑 低 。 





4.3 建立 数据 通路 

设计 数据 通路 比较 合理 的 方法 是 首先 分 析 执 行 每 种 MIPS 指令 时 需要 哪些 主要 部 件 。 下 面 先 
来 看 看 每 条 指令 需要 什么 数据 通路 部 件 ”。 在 指出 数据 通路 部 件 的 同时 ， 我 们 也 会 指出 它们 的 控 
制 信号 。 

图 4-5a 展示 了 我 们 需要 的 第 一 个 元 素 : 一 个 存储 单元 ， 它 用 于 存储 程序 的 指令 ， 并 在 给 定 
地 址 时 提供 指令 。 图 4-5b 展示 了 程序 计数 器 (PC) ， 在 第 2 章 曾经 出 现 过 ， 用 于 保存 当前 指令 
的 地 址 。 最 后 ,我 们 需要 一 个 加 法 器 增加 PC 的 值 以 指向 下 条 指令 的 地 址 。 这 个 加 法 器 是 一 个 组 
合 单元 ， 可 以 用 附录 C 中 设计 的 ALU 实现 ， 只 需 将 其 中 的 控制 信号 设 为 总 是 进行 加 法 操作 即 可 。 
如 图 4-5c， 我 们 将 给 这 样 的 ALU 加 上 “Add” 标 记 ， 以 表明 它 成 为 了 一 个 加 法 器 而 不 能 再 进行 


其 他 ALU 操作 。 
指令 地 址 
加 
指令 法 和 


指令 存储 器 
a) b) C) 


图 4-5 存 取 指 令 需要 的 两 个 状态 单元 ， 以 及 计算 下 一 条 指令 地 址 所 需要 的 加 法 器 
a) 指令 存储 器 ; b) 程序 计数 器 ，c) 加 法 器 
两 个 状态 单元 分 别 是 指令 存储 器 和 程序 计数 器 。 因 为 数据 通路 没有 写 指令 ， 所 以 指令 存储 器 只 提供 读 访问 。 
因为 指令 存储 器 是 只 读 的 ， 我 们 将 它 视 为 组 合 逻 辑 : 任意 时 刻 的 输出 都 反映 了 输入 地 址 处 的 内 容 ， 而 不 需要 
读 控制 信号 。( 在 装载 程序 时 需要 写 人 指令 存储 器 ， 但 是 这 很 容易 实现 ， 所 以 为 了 简单 起 见 我 们 将 其 忽略 、) 
程序 计数 器 是 一 个 32 位 的 寄存 器 ， 它 在 每 个 时 钟 周 期 末 都 会 被 写 人 ， 所 以 不 需要 写 控制 信号 。 加 法 器 采用 只 
进行 加 法 的 ALU， 它 将 输入 的 两 个 32 位 数 相 加 ， 将 结果 输出 。 
要 执行 任何 一 条 指令 ， 首 先 要 从 存储 单元 中 将 指令 取出 。 为 准备 执行 下 一 条 指令 ， 也 必须 增 
加 程序 计数 器 使 其 指向 下 一 条 指令 ， 即 向 后 移动 4 个 字 节 。 此 时 的 数据 通路 如 图 4-6 所 示 ， 使 用 
了 图 4-5 中 的 3 个 部 件 ， 它 可 以 取 指 令 并 能 自 增 PC 以 获得 下 一 条 指令 的 地 址 。 
现在 讨论 R 型 指令 (参见 图 2-20) 。 这 类 指令 读 两 个 寄存 器 ， 对 它们 的 内 容 进 行 ALU 操作 ， 
再 写 回 结 果 。 我 们 将 这 类 指令 称 为 R 型 指令 或 算术 逻辑 指令 ( 因为 它们 执行 算术 或 逻辑 运算 ) 。 
这 个 指令 集合 包括 第 3 章 介 绍 的 add、 sub、AND、OR 和 slt 指令。 回忆 一 下 ， 此 类 指令 的 典型 


名 数据 通路 部 件 〈datapath element) ， 一 个 用 来 操作 或 保存 处 理 器 中 数据 的 单元 。 在 MIPS 实现 中 ， 数据 通路 部 件 
包括 指令 存储 器 、 数 据 存储 器 、 寄 存 器 堆 、ALU 和 加 法 器 。 
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形式 是 ada $t1, $t2, $t3 ， 它 将 读 取 $t2 和 $t3 ， 并 将 结果 写 回 $t1。 

处 理 器 的 32 个 通用 寄存 器 位 于 一 个 叫做 寄存 器 
堆 ” (register file) 的 结构 中 。 寄 存 器 堆 即 寄存 器 集合 ， 
其 中 的 寄存 器 都 可 通过 指定 相应 的 寄存 器 号 来 进行 读 
写 。 寄 存 器 堆 包含 了 计算 机 的 寄存 器 状态 。 另 外 ， 还 
需要 一 个 ALU 来 对 从 寄存 器 读 出 的 数值 进行 运算 。 

由 于 R 型 指令 有 3 个 寄存 器 操作 数 ， 每 条 指令 都 
要 从 寄存 器 堆 读 出 两 个 数据 字 ， 再 写 人 一 个 数据 字 。 
为 读 出 一 个 数据 字 ， 寄 存 器 堆 需 要 输入 一 个 要 读 的 寄 
存 器 号 和 一 个 从 寄存 器 堆 读 出 结果 的 输出 指示 。 为 写 
人 一 个 数据 字 ， 寄 存 器 堆 要 有 两 个 输入 : 一 个 提供 要 图 4-6 用 于 取 指 和 程序 计数 器 自 增 
写 的 寄存 器 号 (register number) ， 另 一 个 提供 要 写 的 数 的 数据 通路 部 分 
据 (data) 。 寄 存 器 堆 总 是 根据 输入 的 寄存 器 号 输出 相思 忆 的 指令 被 数据 通路 的 其 他 部 分 所 使 用 。 
应 的 寄存 器 内 容 ， 而 写 操作 由 写 控制 信号 控制 ， 在 写 操 作 发 生 的 时 钟 边 洛 ， 写 控制 信号 必须 是 有 
效 的 。 这 样 ， 我 们 一 共 需 要 4 个 输入 (3 个 寄存 器 号 和 1 个 数据 ) 和 两 个 输出 (两 个 数据 )， 如 
图 4-7a 所 示 。 输 入 的 寄存 器 号 为 5 位 ， 可 指示 32 个 寄存 器 中 的 某 一 个 (32 =25) ， 而 一 条 数据 
输入 总 线 和 两 条 数据 输出 总 线 宽度 均 为 32 位 。 

图 4-7b 所 示 为 ALU， 该 ALU 有 两 个 32 位 输入 、 一 个 32 位 输出 ， 还 有 一 个 1 位 输出 指示 其 
结果 是 否 为 0。ALU 的 4 位 控制 信号 在 光盘 的 附录 C 中 有 详细 的 描述 。 

下 面 考虑 MIPS 的 存 取 指 令 ， 其 一 般 形式 为 : 


lw $t1,offset value ($t2) 或 Sw $t1 ,offset value ($t2) 


在 这 类 指令 中 ， 通 过 将 基 址 寄存 器 $t2 的 内 容 与 指令 中 的 16 位 带 符号 偏 移 地 址 相 加 ， 得 到 存储 
癸 地 址 。 如 果 是 存储 指令 ， 要 从 寄存 器 $tl 中 读 出 要 存储 的 数据 如 果 是 装载 指令 ， 则 要 将 从 
存储 器 中 读 出 的 数据 存 人 指定 的 寄存 器 $t1 中 。 所 以 ,图 4-7 中 的 寄存 器 堆 和 ALU 都 会 用 到 。 








4-7 ”实现 R 型 指令 的 ALU 操作 所 需 的 两 个 单元 一 -寄存 器 堆 和 ALU 
a) 寄存 器 推 ; b) ALU 
寄存 器 堆 包 括 了 所 有 的 寄存 器 ， 有 两 个 读 端 口 和 一 个 写 端口 。 多 端口 寄存 器 堆 的 设计 在 附录 C ( 见 光盘 ) 
的 C. 8 节 讨 论 。 寄 存 器 堆 的 读 输 出 总 是 对 应 于 读 寄存 器 号 ， 不 需要 其 他 的 控制 信号 。 但 是 写 寄存 器 必须 明确 
使 能 写 控制 信号 。 注 意 写 操作 是 边沿 触发 的 ， 所 以 所 有 的 写 操作 的 输 人 《对 写 的 内 容 、 寄 存 器 导 、 写 控制 信 
号 ) 必须 在 时 钟 边沿 有 效 。 因 为 寄存 器 堆 的 写 人 是 边沿 触发 的 ， 故 可 以 在 同一 时 钟 周 期 内 读 出 和 写 人 同一 寄 
存 器 : 读 操作 将 读 出 以 前 写 人 的 内 容 ， 而 号 人 的 内 容 在 下 一 时 钟 周 期 才 可 读 。 寄 存 器 号 的 输入 都 是 5 位 的 ， 
数据 线 为 32 位。 车 采用 附录 C ( 见 光盘 ) 中 的 ALU 设计 ， 则 ALU 的 操作 可 由 4 位 ALU 操作 信和 号 控制 。 我 们 
使 用 ALU 的 零 检测 输出 信号 实现 分 支 指令 。 溢 出 信号 在 4. 9 节 讲 述 异 常 时 才 会 用 到 ， 在 此 之 前 我 们 先 忽略 它 。 


提 ”寄存 器 堆 (register fle) : 包含 一 系列 寄存 器 的 状态 单元 ， 可 以 通过 提供 寄存 器 号 进行 读 写 。 
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另外 ， 还 需要 一 个 单元 将 16 位 的 偏 移 地 址 符号 扩展 ” (sign-extend) 为 32 位 的 带 符号 值 ， 
以 及 一 个 保存 读 出 或 写 人 数据 的 存储 单元 。 数 据 存储 单元 在 存储 指令 时 被 写 人 ， 所 以 它 有 读 、 写 
控制 信号 ， 地 址 输入 和 写 人 存储 器 的 数据 输入 。 图 4-8 中 给 出 了 这 两 个 单元 。 


存储 器 写 






地 址 






数据 存储 器 
写 数据 





.存储 器 读 
2) b) 


图 4-8 除了 图 4-7 中 的 寄存 器 堆 和 ALU， 存 储 指令 和 装载 指令 还 需要 两 个 单元 一 一 


数据 存储 器 单元 和 符号 扩展 单元 
a) 数据 存储 器 单元 ; b) 符号 扩展 单元 

数据 存储 器 单元 是 一 个 状态 单元 ， 两 个 输入 为 地 址 和 所 写 数 据 ， 一 个 输出 为 读 出 的 数据 。 读 、 写 控制 信 
号 都 是 独立 的 ， 尽 管 任 意 时 钟 只 能 激活 其 中 一 个 。 不 像 寄 存 器 ， 存 储 器 单元 需要 一 个 读 控 制 信号 ， 因 为 读 
一 个 无 效 地 址 可 能 会 出 问题 我们 在 第 5 章 会 看 到 这 种 情况 。 符 号 扩展 单元 有 一 个 16 位 的 输入 ， 符 号 扩展 
为 32 位 后 输出 ( 见 第 2 章 )。 假 定数 据 存储 器 的 写 是 边沿 触发 的 。 标 准 的 存储 芯片 实际 上 有 一 个 写 使 能 信 
号 用 于 写 操 作 。 尽 管 标准 存储 芯片 的 写 使 能 信号 不 是 边沿 触发 的 ， 我们 的 边沿 触发 的 设计 可 以 很 容易 地 应 
用 于 真正 的 存储 芯片 。 关 于 存储 器 芯片 工作 细节 的 讨论 ， 见 光盘 中 附录 C 的 C.8 节 。 


beq 指令 有 3 个 操作 数 ， 其 中 两 个 为 寄存 器 ， 用 于 比较 是 否 相 等 ， 另 一 个 是 16 位 偏 移 量 ， 
用 于 计算 相对 于 分 支 指令 所 在 地 址 的 分 支 目标 地 址 。 它 的 指令 格式 为 


beq $t1 ，$t2 ,offset 


为 了 实现 该 指令 ， 我 们 必须 将 PC 值 与 符号 扩展 后 的 指令 偏 移 量 字段 相 加 以 得 到 分 支 目标 地 
址 。 分 支 指令 〈 见 第 2 章 ) 的 定义 中 有 两 个 需要 注意 的 地 方 ; 
。 指令 集 规定 计算 分 支 地 址 时 使 用 的 基地 址 ， 是 分 支 指令 的 下 一 条 指令 的 地 址 。 原 因 是 我 
们 在 取 指 通路 中 计算 了 PC +4 (下 一 条 指令 的 地 址 )， 用 这 个 值 作为 计算 分 支 目标 地 址 
时 的 基地 址 比较 容易 实现 。 
。 系统 结构 还 规定 偏 移 量 左 移 2 位 以 指示 以 字 为 单位 的 偏 移 量 ， 这 样 偏 移 量 的 有 效 范围 就 
扩大 了 4 倍 。 
为 了 处 理 后 面 这 种 情况 ， 我 们 需要 把 偏 移 量 左 移 2 位 。 
除了 计算 分 支 目标 地 址 ， 还 必须 确定 是 顺序 执行 下 一 条 指令 ， 还 是 去 执行 分 支 目标 地 址 处 
的 指令 。 当 分 支 条 件 为 真 例如， 操作 数 相等 ) 时 ， 分 支 目 标 地 址 成 为 新 的 PC， 我 们 就 说 分 支 
发 生 了 。 若 操作 数 不 等 ， 自 增 后 的 PC 将 取代 当前 PC (就 像 其 他 普通 指令 一 样 ) 这 时 就 说 分 
支 未 发 生 8 。 
所 以 ， 分 支 数据 通 路 需要 进行 两 个 操作 : 计算 分 支 目标 地 址 和 比较 操作 数 。( 很 快 我 们 还 将 
计 到 ， 分 支 指令 还 需要 改变 数据 通路 的 取 指 部 分 。) 图 4-9 为 分 支 数据 通路 。 为 计算 分 支 目 标 地 
址 , 分支 目标 通路 包含 了 一 个 如 图 4-8 所 示 的 符号 扩展 单元 和 一 个 加 法 器 。 为 了 进行 比较 ， 要 由 


符号 扩展 sign-extend) :为 增加 数据 项 的 长 度 ， 将 原 数 据 项 的 最 高 位 复制 到 新 数据 项 多 出 来 的 高 位 。 

分 支 目标 地 址 ( branch target address) ， 该 地 址 指定 了 一 个 分 支 ， 如 果 分 支 发 生 ， 那 么 它 将 成 为 新 的 程序 计数 器 
(PC)。 在 MIPS 架构 中 ， 指 令 偏 移 域 与 分 支 指令 的 下 一 条 指令 地 址 之 和 组 成 分 支 目标 。 

各 支 发 生 《branch taken) ， 分支 条 件 满足 而 PC 变 为 分 支 目 标 地 址 的 分 支 。 所 有 的 无 条 件 跳 转 都 是 发 生 的 分 支 
分 支 未 发 生 〈braneh not taken) : 分 支 条 件 不 满足 而 PC 变 为 分 支 指令 的 下 一 条 指令 地 址 。 和 
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图 4-7a 的 寄存 器 堆 提 供 两 个 寄存 器 操作 数 〈 但 不 需 向 寄存 器 堆 写 人 数据 ) 。 另 外 ， 比 较 可 由 在 光 
盘 中 的 附录 C 设计 的 ALU 完成 。 因 为 ALU 提供 一 个 指示 结果 是 否 为 0 的 输出 信号 ， 故 可 以 把 两 
个 寄存 器 数 作为 输入 ， 并 将 ALU 设置 为 减法 。 若 ALU 输出 的 零 信 号 有 效 ， 则 可 知 两 操作 数 相 
等 。 尽 管 零 输出 信号 始终 指示 结果 是 否 为 0， 但 我 们 只 用 它 来 实现 分 支 时 的 等 值 测试 。 稍 后 将 详 
细 介 绍 将 ALU 用 于 数据 通路 时 ， 怎 样 连接 它 的 控制 信号 。 

跳 转 指令 将 偏 移 地 址 的 低 26 位 左 移 两 位 后 ， 以 之 代替 PC 的 低 28 位 。 移 位 通过 给 偏 移 量 后 
面 加 上 两 个 0 实现 〈 如 第 2 章 所 述 ) 。 


来 自 指令 数据 通路 的 PC+4 


分 支 目标 


到 分 支 
控制 逻辑 





图 4-9 在 分 支 指令 的 数据 通路 中 ， 用 ALU 计算 分 支 条 件 是 否 成 立 ， 用 另外 的 加 法 器 将 
自 增 后 的 PC 值 与 符号 扩展 后 左 移 两 位 的 指令 低 16 位 (分支 偏 移 量 ) 相 加 ， 得 
到 分 支 目标 地 址 
标 有 “ 左 移 两 位 ”的 单元 只 是 输入 到 输出 之 间 一 条 简单 的 数据 通路 ， 它 给 符号 扩 展 后 的 偏 移 量 字 有 段 的 低位 
加 上 两 个 0 (二 进 制 )。 因 为 “移动 ”的 距离 是 固定 的 ， 所 以 并 不 需要 真正 的 移 位 电路 。 我 们 知道 偏 移 量 是 从 
16 位 扩展 而 来 的 ， 所 以 移 位 只 会 丢掉 “符号 位 ”。 控 制 逻 辑 根据 ALU 的 零 输出 决定 是 用 自 增 的 PC 还 是 分 支 
目标 地 址 来 取代 当前 的 PC。 


精 解 : 在 实际 MIPS 指令 集中 ， 分 支 指令 是 “延迟 的 "e ， 即 无 论 分 支 条 件 是 否 满足 ， 它 之 后 的 那 条 指 
令 总 被 执行 。 条 件 不 满足 时 ， 情 况 与 一 般 分 支 指令 相同 ; 条件 满足 时 ， 延迟 的 分 支 指令 先 执 行 它 下 面 的 那 
条 指令 ， 然 后 再 跳 转 到 指定 的 目标 地 址 。 将 分 支 指令 设计 为 延迟 的 原因 是 减轻 流水 线 对 分 支 指令 的 影响 
( 见 4.8 节 )。 为 简单 起 见 ， 本 章 仅 实现 非 延 迟 的 beq 指令 。 


创建 一 个 简单 的 数据 通路 


我 们 已 经 讨论 了 不 同 指令 类 型 所 需要 的 数据 通路 单元 ， 可 以 把 它们 连 在 一 起 并 加 上 控制 来 
元 成 一 个 最 简单 的 MIPS 子 集 实现 方案 。 这 个 最 简单 的 数据 通路 每 个 时 钟 周期 执行 -条 指令 。 这 
意味 着 每 条 指令 执行 过 程 中 任何 数据 通路 单元 都 只 能 被 用 一 次 ， 如 果 需 要 使 用 多 次 则 必须 将 该 


@ ”延迟 的 分 支 (delayed branch) : 不 管 分 支 条 件 是 否 满足 ， 分 支 指令 之 后 的 那 条 指令 总 被 执行 的 一 种 分 支 。 
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数据 通路 单元 复制 多 份 。 所 以 我 们 除了 需要 一 个 指令 存储 髓 外 ， 还 需要 一 个 数据 存储 器 。 尽 管 有 
的 功能 单元 需要 复制 ， 但 在 执行 不 同 指令 时 ， 很 多 功能 单元 也 可 以 被 共享 。 
为 了 在 两 种 不 同 妆 型 的 指令 间 共 享 数据 通路 单元 ， 我 们 需要 让 功能 单元 有 多 个 输入 ， 而 使 
用 多 选 器 和 控制 信 叶 来 从 多 个 输入 中 进行 选择 。 
建立 一 个 数据 通路 
算术 逻辑 指令 〈 或 及 型 指令 ) 的 数据 通路 与 存 取 指令 的 数据 通路 很 相似 。 它 们 的 主要 区 
别 为 : 
。 算术 逻辑 指令 使 用 ALU， 并 且 其 输入 来 自 两 个 寄存 器 。 存 储 指令 也 使 用 ALU 来 进行 地 址 
计算 ， 但 ALU 的 第 二 个 输入 是 对 指令 中 16 位 偏 移 地 址 进行 符号 扩展 后 的 值 。 
。 存 入 目标 寄存 器 中 的 值 来 自 于 ALU (对 及 型 指令 而 言 ) 或 者 存储 器 (对 装载 操 
作 而 言 )。 
试 设计 存储 指令 和 算术 逻辑 指令 操作 部 分 的 数据 通路 ， 只 能 使 用 一 个 寄存 器 堆 和 一 个 ALU， 
可 增加 必要 的 多 选 器 。 
为 了 只 用 一 个 ALU 和 一 个 寄存 器 堆 来 创建 一 个 数据 通路 ，ALU 的 第 二 个 输入 和 要 存 入 寄存 
器 堆 的 数据 都 需要 两 个 不 同 的 来 源 。 所 以 ， 要 在 ALU 的 输入 和 寄存 器 堆 的 输入 数据 处 各 加 入 一 
个 多 选 器 。 图 4-10 给 出 了 合并 后 的 数据 通路 。 





RegWrite 











i6 





MemRead 


图 4-10 存储 指令 和 R 型 指令 数据 通路 的 合并 
这 个 例子 说 明了 如 何 通过 加 入 多 选 器 将 图 4-7 和 图 4-8 合并 成 一 个 数据 通路 ， 其 中 增加 了 两 个 多 选 器 。 


现在 ， 加 上 图 4-6 的 取 指数 据 通路 、 图 4-9 的 分 支 数据 通路 、 图 4-10 的 R 型 指令 和 存储 指令 
数据 通路 ， 我 们 可 以 把 所 有 部 件 合并 在 一 起 建立 一 个 简单 的 MIPS 体系 结构 数据 通路 ， 如 图 4-11 
所 示 。 由 于 分 支 指令 用 主 ALU 对 寄存 器 操作 数 进行 比较 ， 所 以 还 需要 图 4-9 中 的 加 法 器 完成 分 
文 日 标 地 址 的 计算 。 此 外 还 增加 了 一 个 多 选 器 ， 用 于 选择 是 将 顺序 的 指令 地 十 (PC +4) 还 是 分 
支 目 标 地 址 写 人 PC。 

在 完成 这 个 简单 的 数据 通路 后 ， 可 以 加 上 控制 单元 。 控制 单元 必须 能 够 接收 输入 ， 能 够 产生 
每 个 状态 单元 的 写 信 号 、 每 个 多 选 器 的 选择 信号 和 ALU 的 控制 信号 。 由 于 ALU 的 控制 比较 特 
殊 ， 因 此 最 好 先 设 计 ALU， 随 后 再 设计 控制 单元 的 其 他 部 分 。 
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图 4-11 将 不 同类 型 指令 所 需 的 功能 单元 合并 在 一 起 实现 的 一 个 简单 MIPS 系统 结构 数据 通 褒 
图 中 的 部 件 来 自 图 4-6、 图 4-9 和 图 4-10。 这 个 数据 通路 可 以 在 一 个 时 钟 周 期 内 完成 基本 的 指令 ( 存 取 字 、 
ALU 操作 和 分 支 ) 。 为 了 支持 分 支 指令 还 增加 了 一 个 额外 的 多 选 器 。 对 跳 转 指令 的 支持 将 在 以 后 增加 。 


小 测验 
1) 对 装载 指令 来 说 ， 以 下 哪个 是 正确 的 ? 参考 图 4-10。 
A. MemtoReg 信号 线 应 该 被 设置 为 将 存储 器 中 的 数据 发 送 至 寄存 器 堆 。 
B. MemtoReg 信号 线 应 该 被 设置 为 将 正确 的 目标 寄存 器 的 数据 发 送 至 寄存 器 堆 。 
C. 对 装载 指令 而 言 ，MemtoReg 信和 号 线 的 设置 无 关 紧要 。 
2) 本 证 描述 的 单 周期 数据 通路 必须 有 独立 的 指令 存储 器 和 数据 存储 器 ， 因 为 : 
A. MIPS 中 指令 与 数据 的 格式 是 不 同 的 ， 所 以 需要 不 同 的 存储 器 。 
B. 使 用 独立 的 存储 器 会 比较 便宜 。 
C. 因为 处 理 器 在 一 个 周期 内 只 能 操作 每 个 部 件 一 次 ， 而 在 一 个 周期 内 不 可 能 对 一 个 单 端口 存储 器 进行 
两 次 存 取 。 


4.4 一 个 简单 的 实现 机 制 


在 本 节 中 ,我们 将 学 习 如 何 实现 最 简单 的 MIPS 子 集 。 我 们 用 上 -一 节 的 数据 通路 和 增加 一 个 
简单 的 控制 单元 来 实现 一 个 MIPS 体系 结构 。 这 一 结构 实现 了 取 字 (1w) 、 存 储 字 (sw) 、 相 等 则 
分 文 (beq) 和 算术 逻辑 指令 加 法 (aad) 、 减 法 ( sub)、 与 运算 (ap) 、 或 运算 (oR) 和 小 于 
则 设置 ( set on ress than) ， 后面 我 们 还 将 实现 跳 转 指 令 (j)。 


4.4. 1 ALU 控制 
光盘 附录 C 中 描述 的 MIPS ALU 在 4 位 控制 信号 上 定义 了 6 种 有 效 的 输入 组 合 ， 
ALU 控制 信号 ET 
0000 5 | oo “| 


oo0i ET | 个 NE 
四 mw 
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根据 指令 类 型 的 不 同 ，ALU 将 执行 上 述 五 种 功能 中 的 一 种 。 (或 非 操 作 在 我 们 目前 实现 的 
MIPS 子 集中 暂时 无 用 。) 对 于 取 字 和 存储 字 指 令 ，ALU 用 加 法 计算 存储 器 地 址 。 对 于 R 型 指令 ， 
根据 指令 低 6 位 的 funct 字段 〈( 见 第 2 章 ) ，ALU 执行 五 种 操作 中 的 一 种 〈 与 、 或 、 减 、 加 、 小 
于 则 置 1) 。 对 相等 则 分 支 指令 ，ALU 执行 减法 操作 。 

使 用 一 个 小 的 控制 单元 即 可 生成 4 位 的 ALU 控制 信号 ， 其 输入 为 指令 的 funct 字段 和 2 位 的 
ALUOp 字段 。ALUOP 指明 要 进行 的 操作 是 存 取 指令 需要 的 加 法 (00)、bea 需要 的 减法 (01)， 
还 是 由 指令 的 funct 字段 决定 (10)。 该 ALU 控制 单元 输出 4 位 信号 ， 即 前 面 介 绍 的 4 位 控制 信 
号 ， 直 接 对 ALU 进行 控制 。 

图 4-12 说 明了 怎样 根据 2 位 的 ALUOp 和 6 位 的 funet 功能 字段 生成 ALU 的 控制 信和 号。 在 本 
章 的 后 面 将 会 看 到 怎样 由 主 控制 单元 生成 ALUOp。 


指令 操作 “fanet 字 段 
















1 
10 
型 






mm | 





图 4-12 如 何 根据 ALUOp 控制 位 和 R 型 指令 的 funct 字段 设置 ALU 的 控制 信号 
第 一 列 是 操作 码 ， 操 作 码 决定 了 ALUOp。 所 有 的 编码 以 二 进 制 给 出 。 注 意 ， 当 ALUOp 为 00 或 01 时 ,输出 
字段 不 依赖 于 funct 字段 ， 故 功能 字段 记 为 XXXXXX。 当 ALUOp 为 10 时 ，funct 字段 用 于 设置 ALU 的 控制 信 
号 。 详 情 见 光盘 附录 C。 


这 种 多 级 译 码 的 方法 〈 主 控制 单元 生成 ALUOp 作为 ALU 控制 单元 的 输入 ， 再 由 ALU 控制 
单元 生成 真正 控制 ALU 的 信号 ) 是 一 种 常用 的 实现 方式 。 使 用 多 级 译 码 可 以 减 小 主 控制 单元 的 
规模 。 使 用 多 个 小 控制 单元 还 可 能 提高 控制 单元 的 速度 。 这 种 优化 是 很 重要 的 ， 因 为 控制 单元 的 
性 能 对 减少 时 钟 周期 非常 关键 。 

有 多 种 不 同方 法 把 2 位 的 ALUOp 和 6 位 的 funct 字段 映射 为 4 位 ALU 控制 信号 。 因 为 funet 
切 能 字段 的 64 种 可 能 取 值 中 只 有 很 小 一 部 分 有 意义 ， 并 且 只 有 当 ALUOp 取 值 为 10 时 才 使 用 功 
能 字段 ， 我 们 可 以 用 一 个 小 逻辑 单元 去 识别 可 能 取 的 值 ， 以 生成 正确 的 ALU 控制 信号 。 

为 设计 这 个 逻辑 单元 ， 有 必要 为 ALUOp 和 funct 字段 有 意义 地 组 合生 成 一 张 真 值 表 2 ， 如 图 
4-13 所 示 。 该 真 值 表 说 明了 如 何 根据 两 个 输入 字段 得 到 4 位 的 ALU 控制 信号 。 由 于 完整 的 真 值 
表 很 大 (2 =256 项 ) ， 我 们 并 不 是 关心 所 有 的 输入 组 合 ， 只 列 出 了 使 ALU 控制 信号 有 效 的 部 分 
表 项 ， 而 忽略 那些 恒 为 0 或 无 关 的 项 〈 这 样 做 的 缺点 在 光盘 附录 D 的 D.2 六 中 讨论 ) 。 

由 于 在 许多 情况 下 对 某 些 输入 的 取 值 并 不 关心 ， 为 了 简化 真 值 表 ， 我 们 也 列 出 无 关 项 。 真 
伪 表 中 的 无 关 项 〈 在 输入 列表 中 用 X 表示) 表明 ， 输出 与 该 列 对 应 的 输入 取 值 无 关 。 如 图 4-13 
的 第 一 列 所 示 ， 当 ALUOP 取 00 时 ， 无论 funet 字段 取 何 值 ，ALU 控制 总 为 0010。 这 时 ， 真 值 表 
中 此 行 的 funct 字段 就 是 无 关 项 。 在 后 面 ， 还 会 有 另 一 种 无 关 项 的 例子 。 无 关 项 的 概念 在 附录 C 


名 ” 真 值 表 〈tmuth table) : 逻辑 操作 的 一 种 表示 方法 ， 即 列 出 输入 的 所 有 情况 和 每 种 情况 下 的 输出 。 
加 无 关 项 ( don't-care term) :逻辑 函数 的 一 个 元 素 ， 表示 和 输出 与 该 输 人 取 值 无 关 。 无 关 项 可 以 用 不 同 的 方式 指定 。 
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( 见 光盘 ) 中 有 更 多 的 讨论 。 


ALUOPp 


ALUOp! | ALUOpO - 


rt 


a 
"| 


一 一 下 





X 


4-13 4 位 ALU 控制 信号 的 真 值 表 
该 真 值 表 的 输入 为 ALUOp 和 funct 字段 。 在 此 只 列 出 了 ALU 控制 有 效 的 项 ， 也 包括 一 些 无 关 项 。 例 如 ， 
ALUOp 不 使 用 编码 11 ， 故 真 值 表 包含 IX 和 XI 项 ， 而 不 是 10 和 01 项 。 同 样 ， 当 使 用 funct 字段 时 指令 的 前 
两 位 〈F4 和 FS) 总 是 10， 所 以 它们 是 无 关 项 ， 在 真 值 表 中 用 XX 代替 。 
真 值 表 建 好 以 后 ， 可 以 进行 优化 并 转化 成 门 电路 。 这 是 一 个 完全 机 械 的 过 程 。 所 以 将 此 过 程 
及 其 结果 放 在 附录 D 〈 见 光盘 ) 中 的 D. 2 节 讨 论 。 


4.4.< 主 控制 单元 的 设计 


我 们 已 经 描述 了 如 何 使 用 funct 和 ALUOp 作为 输入 来 进行 ALU 控制 单元 的 设计 ， 现 在 来 看 
看 控制 的 其 他 部 分 。 在 开始 之 前 ， 首 先 看 一 条 指令 的 各 个 字段 和 图 4-11 所 示 的 数据 通路 所 需 的 
控制 信号 。 为 了 理解 怎样 将 指令 的 各 个 字段 与 数据 通路 相连 ， 需 要 复习 一 下 三 种 指令 类 型 的 格 
式 : R 型 指令 、 分 支 指令 和 存 取 指令 。 如 图 4-14 所 示 。 


投 [0 TT wT "| Hm | mm | fm 


位 31:26 25:21 20:16 15:11 10:6 5:0 

a) 
字段 os | ld ad 
位 31:26 25:21 20:16 15:0 

b) 
字段 
位 31:26 25:21 20:16 15:0 


c) 


图 4-14 三 种 指令 类 型 (R 型 、 存 取 和 分 支 ) 使 用 的 两 种 指令 格式 
a) R 型 指令 ; b) 存 取 指 令 ; c) 分 支 指令 

后 面 我 们 马上 会 讲 到 ， 跳 转 指令 使 用 另 一 种 格式 。 (a) R 型 指令 的 格式 ， 操 作 码 为 0， 寄 存 器 操作 数 有 3 
个 : ms、rt 和 rd。rs 和 字段 为 源 操作 数 ，rd 字段 为 目的 操作 数 。funct 字段 指出 ALU 功能 ， 由 前 面 设计 的 
ALU 控制 单元 译 码 。 我 们 实现 的 R 型 指令 有 adG、sub、AND、OR 和 slt。shamt 字段 只 用 于 移 位 指令 ， 本 
章 中 暂 不 考虑 。(b) 装载 指令 (操作 码 =351。) 和 存储 指令 (操作 码 =43,。) 的 格式 。 rs 寄存 器 作为 基 址 与 
16 位 的 地 址 字段 相 加 以 得 到 访 存 地址 。 对 装载 指令 ,rt 是 取出 数据 的 目的 寄存 器 。 对 存储 指令 ， rt 是 要 存 人 
存储 器 的 数据 所 在 的 寄存 器 。(c) 相等 则 分 支 指令 (操作 码 =4) 的 格式 。 rs 和 是 源 寄存 器 ， 用 于 比较 是 
否 相 等 。16 位 地 址 进行 符号 扩展 、 移 位 后 与 PC 相 加 以 得 到 分 支 目 标 地 址 。 


MIPS 的 指令 格式 遵循 以 下 规则 : 
。 op 字段 ， 亦 称 操作 码 ”， 总 是 为 31: 26 位 。 我 们 将 用 Op [5:0] 来 表示 。 


加 ”操作 码 (opcode) : 指示 指令 操作 和 格式 的 字段 。 


第 4 章 处 理 帮 : 195 


。 对 于 RR 型 指令 、 分 支 指令 和 存 取 指 令 , 要 读 取 的 两 个 寄存 器 为 s 和 rt 字段， 分 别 为 
25:21 位 和 20: 16 位 。 
。 存 取 指令 的 基 址 字段 在 25:21 位 中 (rs 字段 ) 。 
。 相等 则 分 支 指 令 、 存 取 指 令 的 16 位 偏 移 量 在 15:0 位 中 。 
。 有 两 个 地 方 仓 放 目 标 寄存 器 。 对 装载 指令 为 20:16 位 (rt 字段 )， 对 R 型 指令 为 15:11 位 
(rd 字段 )。 所 以 我 们 需要 一 个 多 选 器 ， 以 指示 要 写 的 寄存 器 号 在 哪个 字段 中 。 
从 第 2 章 得 到 的 第 一 个 设计 原则 一 一 简单 导致 规整 一 一 在 这 里 就 体现 出 来 了 。 
根据 上 述 信息 ， 可 以 给 简单 的 数据 通路 加 上 指令 标记 并 增加 一 个 多 选 器 (用 于 选择 寄存 器 
堆 的 写 寄 存 器 号 ) ， 如 图 4-15 展示 了 这 些 增加 的 部 件 和 ALU 控制 块 、 状 态 单元 的 写 信号 、 数 据 
存储 器 的 读 信号 和 多 路 选择 器 的 写 信号 。 由 于 所 有 的 多 路 选择 器 都 是 两 个 输入 端 ， 因 此 每 个 多 
路 选择 器 都 需要 一 条 单独 的 控制 信 线 。 








MemWrite 


4-15 在 图 4-12 的 数据 通路 上 增加 了 所 有 必需 的 多 选 器 并 标识 出 了 所 有 的 控制 们 号 
控制 信号 以 灰色 线 表示 。 还 增加 了 ALU 控制 单元 。PC 不 需要 写 控制 ， 因为 它 在 每 个 时 钟 周期 末 都 被 写 人 
一 次 。 分 支 控制 逻辑 决定 给 PC 自 增 还 是 写 人 分 支 目标 地 址 。 


图 4-15 给 出 了 7 个 1 位 控制 信号 和 2 位 ALUOp 控制 信和 号。 我们 已 经 说 明了 ALUOp 控制 信号 
如 何 工作 ， 在 继续 说 明 指 令 执行 过 程 中 如 何 设置 这 些 控 制 信号 之 前 ， 最 好 非 正 式 地 定义 一 下 其 
他 7 条 控制 信号 如 何 工作 。 图 4-16 说 明了 这 7 个 控制 信号 的 功能 。 

了 解 了 每 个 控制 信号 的 功能 之 后 ， 再 来 看 看 它们 如 何 设 置 。 除 PCSre 控制 信和 号外， 所 有 控制 
信号 都 可 由 控制 单元 只 根据 指令 的 操作 码 来 确定 。 而 PCSre 信号 有 效 的 条 件 是 指令 为 相等 则 分 支 
(由 控制 单元 确定 ) ， 且 用 于 等 值 比较 的 ALU 的 零 输 出 有 效 为 生成 PCSre 信号 ， 需 将 一 个 来 自 
控制 单元 称 为 “Branch”( 分 支 ) 的 信号 与 ALU 的 零 输 出 信号 相 “与 ”。 

现在 ， 这 9 位 控制 信号 (图 4-16 的 7 位 和 2 位 ALUOp) 的 状态 可 根据 控制 单元 的 6 位 输入 
信号 (操作 码 位 31:26) 来 设置 。 图 4-17 给 出 了 包含 控制 单元 和 控制 信号 的 数据 通路 。 
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控制 信号 名 | z 无 效 时 的 合 义 - z i ”有效 时 的 含义 


未 寄存 器 号 来 自 双 字段 (位 
RegDst | 。 写 寄存 器 的 目标 寄存 器 号 来 自 字段 (位 20: 16) 和 号 


ET 


第 二 个 ALU 操作 数 来 自 寄 存 器 堆 的 第 二 个 输出 〈 读 | 第 二 个 ALU 操作 数 为 指令 低 16 位 的 符号 


ALUSre | 数据 2) 扩展 
PC 由 分 支 目 标 地 址 取代 





4-16 7 个 控制 信号 的 作用 
当 两 路 多 选 器 的 控制 信号 有 效 时 ， 选 择 第 1 个 输入 ， 否 则 选择 第 0 个 输入 。 需 要 注意 的 是 ， 所 有 状态 单元 
都 有 一 个 默认 输入 一 一 时 钟 信 号 ， 且 用 于 写 控制 中 。 时 钟 信号 从 来 不 在 状态 单元 之 外 通过 任何 门 电 路 ， 因 为 





这 样 可 能 导致 时 序 问题 (光盘 的 附录 C 中 对 此 问题 有 进一步 的 讨论 。) 
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指令 [25-2 昌 





[指令 [15-11] 


图 4-17 包含 控制 单元 的 简单 数据 通路 
控制 单元 的 输入 为 指令 的 6 位 操作 码 。 控 制 单元 的 输出 包括 3 个 控制 多 选 器 的 1 位 信号 (RegDst、ALUSre 
和 MemtoReg) ，3 个 控制 寄存 器 堆 和 存储 器 读 写 的 信号 (RegWrite、MemRead 和 MemWrite) ， 一 个 决定 是 否 可 
直送 入 信和 ] ， 和 一 个 ALU 的 2 位 控制 信号 (ALUOP) 。 分 支 控制 信号 Branch 与 ALU 的 零 输 出 一 
过 人 一 个 与 门 ， 其 输出 控制 下 一 个 PC 的 选择 。 注 意 PCSre 是 一 个 间接 信号 ， 而 不 是 从 控制 单元 直接 得 来 。 
所 以 在 图 中 我 们 没有 标 出 这 个 信号 名 称 。 i 
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在 设计 控制 单元 之 前 ， 这 里 先 非 正式 地 定义 一 下 控制 功能 。 由 于 控制 信号 的 状态 仅 由 操作 
码 决定 ， 我 们 需要 定义 在 每 种 操作 码 下 每 个 控制 信号 的 取 值 : 0、1 或 任意 值 X。 根 据 图 4-12、 
图 4-16 和 图 4-17， 图 4-18 定义 了 对 应 于 每 种 操作 码 的 控制 信号 状态 。 








图 4-18 按 指令 操作 码 设置 的 控制 信和 号 

表 的 第 一 行 对 应 于 R 型 指令 (add、sub、AND、OR 和 slt): 源 寄存 器 字段 都 为 rs 和 rt， 目的 寄存 器 
字段 为 rH， 这 决定 了 ALUSre 和 RegDst 信号 如 何 设置 ; 并且 ，R 型 指令 写 寄存 器 (RegWrite = 1) 但 是 不 读 写 
数据 存储 器 。 当 Branch 控制 信号 为 0 时 ，PC 无 条 件 地 由 PC +4 取代 ; 反之 ， 如 果 ALU 的 零 输 出 也 为 高 ， 则 
PC 由 分 支 目 标 地 址 取代 。 当 R 型 指令 的 ALUOp 为 10 时 ，ALU 的 控制 信和 号 应 由 funet 字段 生成 。 本 表 的 第 二 
行 和 第 三 行 给 出 了 lw、sw 指令 的 控制 信号 设置 : ALUSre 和 ALUOp 被 设 为 进行 地 址 计算 ， MemRead 和 
MemWrite 被 设 为 进行 存储 访问 ， 最 后 ，RegDst 和 RegWsite 被 设 为 在 装载 指令 中 将 结果 存 人 寄存 器 rt 中 。 分 
文 指令 与 R 型 指令 相似 ， 因 为 它 将 寄存 器 m 和 tt 送 和 人 ALU: 分 支 指令 的 ALUOp 字段 被 设 为 进行 减法 ( ALU- 
Op =01)， 以 进行 等 值 的 测试 。 注 意 ，RegWrite = 0 时 MemtoReg 的 设置 无 关 紧 要 一 一 因为 寄存 器 没有 被 写 
入 ， 寄 存 器 写 端口 的 数据 值 不 被 使 用 ， 所 以 最 后 两 行 MemtoReg 的 值 由 于 不 被 关心 而 用 X 取代 。 RegWrite =0 
时 ，RegDst 的 值 也 可 用 和 取代。 这 种 无 关 项 必须 由 设计 者 加 入 ， 因 为 它 依赖 于 对 数据 通路 工作 原理 的 了 解 。 


4.4.3 数据 通路 的 操作 


根据 图 4-16 和 图 4-18 包含 的 信息 ， 可 以 设计 出 控制 单元 逻辑 ， 但 在 此 之 前 先 分 析 一 下 每 条 
指令 是 如 何 使 用 数据 通路 的 。 接 下 来 的 一 些 图 说 明了 3 种 类 型 的 指令 在 数据 通路 上 的 执行 过 程 。 
在 这 些 图 中 ， 有 效 的 控制 信号 和 数据 通路 部 件 已 着 重 标 出 。 需要 注意 的 是 ， 对 于 多 选 器 其 控制 为 
0 时 ， 即 使 其 控制 信号 没有 着 重 标 出 ， 它 也 有 相应 的 动作 。 对 于 多 位 信号 ， 只 要 其 中 任何 信号 有 
效 ， 就 将 其 着 重 标 出 。 

图 4-19 给 出 了 执行 R 型 指令 (如 aaa stl, st2, St3) 时 的 数据 通路 操作 。 尽管 一 切 都 发 生 
在 一 个 时 钟 周期 内 ， 但 我 们 可 以 考虑 分 4 步 来 执行 指令 ， 具 体 如 下 ， 

1) 从 指令 存储 器 中 取出 指令 ，PC 自 增 。 

2) 从 寄存 器 堆 中 读 出 寄存 器 st2 和 8t3。 同 时 ， 主 控制 单元 计算 出 各 控制 信号 的 状态 。 

3) ALU 根据 funct 字段 (指令 的 5:0 位 ) 确定 ALU 的 功能 ， 对 从 寄存 器 堆 读 出 的 数据 进行 
操作 。 

4) 将 ALU 的 结果 写 人 寄存 器 堆 ， 根 据 指令 的 15: 11 位 选择 目标 寄存 器 ( $tl) 。 

我 们 可 以 用 和 图 4-19 类 似 的 方式 描述 装载 指令 (如 iw $tl,offset ($t2)) 的 执行 。 图 4-20 
给 出 了 取 数 时 有 效 的 功能 单元 和 控制 信号 。 可 以 考虑 将 装载 指令 的 执行 分 为 5 步 〈 与 将 R 型 指 
令 的 执行 分 为 4 步 类 似 ) : 

1) 从 指令 存储 器 取 指 ，PC 自 增 。 

2) 从 寄存 器 堆 读 出 寄存 器 St2 的 值 。 

3) ALU 将 从 寄存 器 堆 读 出 的 值 与 符号 扩展 后 的 指令 低 16 位 值 (offset) 相 加 。 

4) 将 ALU 的 结果 作为 数据 存储 器 的 地 址 。 | 

5) 存储 单元 的 数据 写 人 寄存 器 堆 ， 目 标 寄存 器 由 指令 的 20: 16 位 〈stl) 指出 。 
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图 4-19 执行 R 型 指令 (如 add S$t1, $8t2,$t3) 时 数据 通路 的 操作 
操作 中 用 到 的 控制 信号 、 功 能 单元 和 连接 均 用 灰色 线 显 示 。 
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图 4-20 执行 装载 指令 时 数据 通路 的 操作 
操作 中 用 到 的 控制 信号、 功能 单元 和 连接 用 灰色 线 显 示 。 存储 指令 的 操作 与 此 类 似 。 主 要 区 别 在 于 数据 
存储 器 的 控制 将 指明 要 进行 写 而 不 是 读 操作 ， 读 出 的 第 二 个 寄存 器 的 值 将 作为 要 存储 的 数据 ， 并 且 不 会 有 
将 数据 存储 器 的 内 容 写 人 寄存 器 的 操作 。 
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最 后 ， 以 同样 方式 说 明 相等 则 分 支 指 令 (如 beq $tl, $t2,offset) 的 执行 过 程 。 它 的 操作 类 
似 于 R 型 指令 ， 但 ALU 的 零 输出 用 于 决定 PC 自 增 为 PC +4 还 是 置 为 分 支 目标 地 址 。 图 4-21 给 
出 了 执行 的 4 步 : 

1) 从 指令 存储 器 中 取 指 ，PC 自 增 。 

2) 从 寄存 器 堆 读 出 寄存 器 $t1 和 $t2 的 值 。 

3) ALU 将 从 寄存 器 堆 读 出 的 两 数 相 减 。PC +4 的 值 与 符号 扩展 并 左 移 2 位 后 的 指令 低 16 位 
(offset) 相 加 ， 结 果 即 分 支 目 标 地 址 。 

4) 根据 ALU 的 零 输 出 决定 哪个 加 法 器 的 结果 存 人 PC 中 。 
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图 4-21 执行 相等 则 分 支 指 令 时 数据 通路 的 操作 
在 用 ALU 进行 比较 操作 之 后 ，ALU 的 零 输出 用 于 在 两 种 可 能 的 PC 中 选择 其 一 。 


4. 4.4 控制 的 结束 


讨论 过 指令 的 操作 之 后 ， 现 在 继续 讨论 控制 单元 的 实现 。 控 制 单元 的 功能 可 由 图 4-18 精确 定 
义 ， 其 输入 为 6 位 操作 码 Op [5:0] ， 输 出 为 控制 信号 。 这 样 ， 可 以 为 每 个 输出 建立 一 张 真 值 表 。 

根据 这 些 信息 ， 可 以 把 控制 单元 (包括 所 有 输出 的 逻辑 综合 ) 描述 在 一 张大 的 真 值 表 中 ， 
如 图 4-22 所 示 。 它 完整 地 描述 了 控制 功能 ， 可 以 日 动 地 转换 为 门 电路 实现 ， 附 录 D ( 见 光盘 ) 
的 D.2 节 对 此 进行 了 描述 。 


既然 我 们 已 经 有 了 包含 MIPS 核心 指令 集中 绝 大 多 数 指令 的 单 周 期 实现 ”， 在 此 基础 之 上 我 





已 ” 单 周期 实现 (single-cycle implementation); 也 


被 称 为 单 时 钟 周期 实现 (single clock cycle implementation ) ， 即 一 个 
时 钟 周期 执行 一 条 指令 的 实现 机 制 。 
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们 再 加 上 跳 转 指令 ， 看 看 怎样 通过 扩展 基本 数据 通路 和 控制 通路 ， 来 实现 指令 集中 的 其 他 指令 。 





beg 

| om 0 
om | 0 | °° | 0 | 

| oo | | | 

人 吧 | | oo | 
oo 0 

om | oo 1 To 
Rpt | 1 | oo yx | yx 
Mse | 0 | 
MmoReg | 0 | 1 | xx 
RegWrite | 1 | 1 | om | °° 

给 | MmRed | 0 | 1 | oo | 0 


me | ol ww 
me lm 
om | | 0 | 
om | 0 | oo | Jo | 1 


图 4-22 简单 的 单 周 期 实现 的 控制 功能 真 值 表 
表 的 上 半 部 分 为 输入 ， 其 包括 操作 码 (对 应 于 指令 的 31:26 位 的 Op [5:0]) 的 四 种 组 合 。 表 的 下 半 部 分 
为 四 种 组 合 的 输出 。 因 此 ，Regwrite 对 于 两 种 不 同 的 输入 组 合 是 有 效 的 。 如 果 只 考虑 这 张 表 中 的 四 个 操作 
码 ， 则 可 以 用 输入 部 分 的 无 关 项 简化 真 值 表 。 例 如 ， 可 以 由 表达 式 0p5 . Op2 确 定 是 否 为 R 型 指令 ， 因 为 这 
已 经 足够 将 R 型 指令 与 1w、 sw 和 beq 指令 区 分 开 。 之 所 以 不 用 这 种 简化 ， 是 因为 在 MIPS 指令 集 的 完整 实 
现 中 会 用 到 其 他 操作 码 。 
跳 转 的 实现 
图 4-17 给 出 了 第 2 章 中 提 到 的 许多 指令 的 实现 ， 但 没有 给 出 跳 转 指令 的 实现 。 请 对 图 4-17 
的 数据 通路 和 控制 通路 进行 扩展 ， 从 而 支持 跳 转 指令 。 并 给 出 控制 信号 的 设置 方式 。 
答案 | 
跳 转 指令 类 似 于 分 支 指令 ， 但 它 以 不 同 的 方式 计算 目标 PC， 且 是 无 条 件 的 。 与 分 支 指令 一 
样 ， 跳 转 地 址 的 最 低 两 位 恒 为 00,。32 位 跳 转 地 址 的 次 低 26 位 来 自 指令 的 26 位 立即 数 ， 如 图 
4-23 所 示 。 跳 转 地址 的 高 4 位 来 自 于 跳 转 指令 的 PC +4。 也 就 是 说 ， 实 现 跳 转 指 令 即 将 下 面 3 个 
部 分 拼接 为 跳 转 地 址 ; 
。 当前 PC +4 的 高 4 位 (下 条 指令 地 址 的 31:28 位 ) 。 
。 跳 转 指令 的 26 位 立即 数字 段 。 











e 低位 00,。 
‘a 
位 31:26 25:0 


4-23 ” 跳 转 指令 的 格式 {操作 码 =2) 
跳 转 指令 的 目的 地 址 由 当前 PC +4 的 高 4 位 与 跳 转 指令 中 的 26 位 地 址 连结 ， 再 将 00 作为 最 低 两 位 形成 。 


图 4-24 所 示 为 在 图 4-17 基础 上 增加 了 对 跳 转 指 令 的 支持 。 为 了 在 PC +4、 分 支 目标 PC 和 中 
转 目 标 PC 中 选择 新 PC 值 的 来 源 ， 加 上 了 一 个 多 选 器 。 这 个 多 选 器 需要 一 个 控制 信号 Jump。 只 
有 当 操作 码 为 2， 即 指令 为 跳 转 指令 时 ， 该 控制 信号 才 有 效 。 
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图 4-24 扩展 后 能 处 理 跳 转 指令 的 简单 控制 和 数据 通路 
加 入 了 一 个 多 选 器 (右上 角 ) 用 来 选择 分 支 目 标 地 址 、 跳 转 目标 地 址 和 下 一 指令 地 址 三 者 之 一 。 该 多 选 器 
由 Jump 信号 控制 。 跳 转 目 标 地 址 通过 将 jump 指令 中 低 26 位 地 址 左 移 两 位 ， 从 而 高 效 地 增加 00 作为 低位 ， 
然后 将 PC +4 的 高 4 位 作为 高 位 ， 从 而 产生 32 位 地 址 。 


4.4.5 为 什么 不 使 用 单 周期 实现 方式 


里 然 单 周期 设计 也 可 以 正确 地 工作 ， 但 现代 设计 中 并 不 采取 这 种 方式 ， 因 为 它 的 效率 太 低 ，。 
完 其 原因 ， 是 在 单 周 期 设计 中 ， 时 钟 周 期 对 所 有 指令 等 长 ， 这 样 时 钟 周 期 要 由 执行 时 间 最 长 的 那 
条 指令 决定 。 这 条 指令 几乎 肯定 是 装载 指令 ， 它 依次 使 用 了 5 个 功能 单元 ,指令 存储 器 、 寄 存 器 
堆 、ALU、 数 据 存储 器 、 寄 存 器 堆 。 虽 然 CPI 为 1 ( 见 第 1 章 )， 单 周期 实现 方式 的 总 体 性 能 并 不 
一 定 很 好 ， 因 为 时 钟 周期 实在 是 太 长 了 。 

使 用 单 周 期 设计 的 代价 虽然 很 大 ， 但 对 于 小 指令 集 来 说 ,或 许 是 可 以 接受 的 。 事 实 上 ， 早 其 
具有 简单 指令 集 的 计算 机 就 曾经 采用 过 这 种 实现 方式 。 然 而 ， 车 要 实现 包含 浮 点 或 更 复杂 指令 
的 指令 集 ， 这 样 的 单 周期 设计 根本 不 能 胜任 。 

因为 时 钟 周期 必须 满足 所 有 指令 中 最 坏 的 情况 ， 故 不 能 使 用 那些 缩短 常用 指令 执行 时 间 而 不 改 
善 最 坏 情况 的 实现 技术 。 这 样 ， 单 周期 实现 方式 违背 了 第 2 章 中 加 快 常见 情况 这 一 设计 原则 。 

在 4.5 他， 我 们 将 看 到 一 种 称 为 流水 线 的 实现 技术 ， 使 用 与 单 周期 类 似 的 数据 通路 ， 但 效率 
里 滞 。 从 方法 来 说 ,流水 线 是 通过 重 琶 多 条 指令 的 执行 来 提高 效率 的 。 

小 测验 

观察 图 4-22 中 的 控制 信号 ， 你 能 在 其 基础 上 进行 整合 吗 ? 其 中 是 否 有 控制 信号 可 以 被 其 他 控制 信号 到 
反 来 将 代 〈 提示 : 将 无 关 项 考虑 进去 )? 如 果 有 ， 不 加 反 向 器 是 否 可 以 直接 用 一 个 控制 信和 叶 赫 代 另 一 个 电 ? 
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4.5 流水 线 概述 

绝对 不 要 浪费 时 间 。 

一 美国 谚语 

流水 线 (pipelining) 9 是 一 种 实现 多 条 指令 重 释 执 行 的 技术 。 目 前 ， 流 水 线 技术 的 使 用 是 普 
饥 的 。 

本 节 对 流水 线 的 概念 及 其 相关 问题 进行 了 概述 。 如 果 只 是 想 对 流水 线 技术 有 一 个 大 概 的 了 
解 ， 可 以 集中 精力 看 完 本 节 ， 然 后 直接 跳 到 4 10 节 和 4. 11 节 学 习 在 最 近 的 处 理 器 (AMD Opter- 
on X4 、Intel Core) 中 所 使 用 的 高 级 流水 线 技 术 。 如 果 想 深入 了 解 基 于 流水 线 技术 的 计算 机 ， 
4.6 ~4.9 节 给 出 了 相关 细节 。 

任何 一 个 经 常 光顾 洗衣 店 的 人 都 会 不 自觉 地 使 用 流水 线 技术 。 非 流水 线 方式 的 洗衣 过 程 包 
括 如 下 几 个 步骤 : 

1) 把 一 批 脏 衣 服 放 人 洗衣 机 里 清洗 。 

2) 洗衣 机 洗 完 后 ， 把 衣服 取出 并 放 入 烘 干 机 中 。 

3) 烘 干 衣服 后 ， 将 之 从 烘 干 机 中 取出 ， 然 后 将 衣服 放 在 桌子 上 花 起 来 。 

4) 盔 好 衣服 后 ， 请 你 的 室友 帮忙 把 桌子 上 的 衣服 收 好 。 

当 你 的 室友 把 这 批 干净 衣服 从 桌子 上 拿 走 后 ， 再 开始 洗 下 -- 批 脏 衣服 。 

采用 流水 线 的 方法 将 节省 大 量 的 时 间 ， 如 图 4-25 所 示 。 当 把 第 一 批 脏 衣 服从 洗衣 机 里 取出 


6 PM 了 8 9 10 11 12 | 2AM 
| ee | | 








图 4-25 ”以 洗衣 店 为 例 类 比 流水 线 的 动作 过 程 
安妮 、 布 朗 、 凯 西 和 证 每 个 人 都 有 一 些 脏 衣 服 要 清洗 、 烘 干 、 折 登 及 收拾 。 洗 衣 机 、 烘 干 机 、“ 折 春 初 ” 
和 “收拾 机 ”每 个 都 需要 三 十 分 钟 来 完成 各 自 的 任务 。 顺 序 的 洗涤 方法 将 花费 8 个 小 时 的 时 间 洗 完 四 批 衣 
服 ， 而 流水 线 的 洗 涂 方法 只 需要 花费 3. 5 小 时 。 


龟 ”流水 线 (pipelining) : 一 种 实现 多 条 指令 重 伙 执行 的 技术 ， 与 生产 流水 线 类 似 。 
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放 人 烘 于 机 之 后 ， 就 可 以 把 第 二 批 脏 衣服 放 人 洗衣 机 里 进行 清洗 了 。 当 第 一 批 衣 服 被 烘 于 之 后 ， 
就 可 以 将 它们 和 起来， 同时 把 洗 净 的 下 一 批 湿 衣服 放 人 烘 于 机 中 ， 同 时 再 将 下 一 批 脏 衣服 放 人 
洗衣 机 里 清洗 。 接 着 让 你 的 室友 把 第 一 批 衣服 从 桌子 上 收 好 ， 而 你 开始 又 第 二 批 衣服 ， 这 时 烘 干 
机 中 放 的 是 第 三 批 衣 服 ， 同 时 可 以 把 第 四 批 脏 衣服 放 和 人 洗衣 机 清洲 了 。 这 样 ， 所 有 的 洗衣 步 又 
(流水 线 的 步骤 ) 都 在 同时 操作 。 只 要 在 每 一 个 操作 步骤 中 都 有 独立 的 工作 单元 时 ， 我 们 就 可 以 
采用 流水 线 的 方式 来 快速 完成 任务 了 。 

流水 线 的 奇妙 之 处 在 于 ， 对 于 单独 的 一 批 衣服 来 说 ， 从 它 进 洗衣 机 到 烘 干 机 ， 再 到 折 和 至、 收 
拾 ， 整 个 过 程 总 的 处 理 时 间 并 没有 缩短 。 而 在 有 多 批 任务 时 流水 线 之 所 以 快 的 原因 是 所 有 的 工 
作 都 在 并 行 地 进行 。 因此， 单位 时 间 内 能 够 完成 的 工作 量 就 大 大 地 增加 了 。 流 水 线 实 际 上 是 改善 
了 洗衣 系统 的 吞吐 率 。 虽 然 洗 每 一 件 衣 服 的 时 间 没 有 缩短 ， 但 如 果 有 很 多 衣服 要 洗 ， 吞吐 率 的 改 
善 就 减少 了 完成 整个 工作 的 时 间 。 

如 果 所 有 的 步骤 所 需 的 时 间 一 样 ， 并 且 有 足够 的 工作 可 做 ， 那么 从 流水 线 得 到 的 速度 提高 
倍数 等 于 流水 线 中 步骤 的 数目 ， 洗 衣 房 的 例子 是 4: 清洗 、 烘 干 、 折 友和 收拾 。 采 用 流水 线 方式 
工作 与 非 流水 线 方式 工作 的 洗衣 房 相 比 在 速度 上 提高 了 4 倍 : 前 者 洗 完 20 批 衣服 所 需 的 时 间 是 
洗 完 一 批 衣服 所 需 时 间 的 5 倍 ， 而 后 者 洗 完 20 批 衣服 所 需 的 时 间 是 洗 完 一 批 衣服 的 20 倍 。 在 图 
4-25 中 ， 流 水 线 方式 只 将 处 理 速度 提高 了 2. 3 倍 的 原因 是 图 中 只 显示 了 清洗 四 批 衣服 的 处 理 过 
程 。 注 意图 4-25 中 的 流水 线 版 本 在 开始 和 结束 阶段 的 负载 情况 ， 可 以 看 出 其 流水 线 未 完全 充满 。 
当 任 务 数量 相对 于 流水 线 级 数 不 是 很 大 时 ， 突 然 启动 和 逐渐 结束 会 影响 流水 线 的 性 能 。 在 本 例 
中 ， 如 果 任 务 数量 远大 于 4， 那 么 绝 大 多 数 时 候 流水 线 都 将 是 充满 的 ， 这 时 吞吐 率 的 提升 就 非 党 
接近 于 4 售 。 

同样 的 原理 也 可 以 应 用 到 处 理 器 中 ， 即 采用 流水 线 方 式 执行 指令 。 通 常 ， 一 个 MIPS 指令 包 

1) 从 指令 存储 器 中 读 取 指令 。 

2) 指令 译 码 的 同时 读 取 寄 存 器 。MIPS 的 指令 格式 允许 同时 进行 指令 译 码 和 读 寄 存 器 。 

3) 执行 操作 或 计算 地 址 。 

4) 从 数据 存储 器 中 读 取 操作 数 。 

5) 将 结果 写 回 寄存 器 。 

因此 ， 本 章 讨论 的 MIPS 流水 线 具 有 5 个 处 理 步骤 。 正 如 流水 线 能 加 速 洗衣 店 的 工作 一 样 ， 
下 面 的 例子 将 说 明 流水 线 如 何 加 快 指 令 的 总 体 执行 时 间 。 

单 周 期 指令 模型 与 流水 线性 能 

为 了 使 问题 具体 化 ， 我 们 首先 创建 一 个 流水 线 结构 。 在 本 例 以 及 本 章 剩 余 的 部 分 中 ， 我 们 将 
只 考虑 以 下 8 条 指令 : 取 字 (1w) 、 存 储 字 (sw)、 加 (add)、 减 (sub)、 与 (AND)、 或 (oR)、 
小 于 则 置 1 (sit) 和 相等 则 分 支 (beq)。 

本 例 将 比较 流水 线 指令 执行 与 单 周 期 指令 执行 的 平均 执行 时 间 ， 其 中 在 单 周 期 模型 中 所 有 
指令 的 执行 都 花费 一 个 时 钟 周期 。 假 设 主要 功能 单元 的 操作 时 间 为 存储 器 访问 ，200 ps，ALU 操 
作 : 200 ps; 寄存 器 堆 的 读 写 ; 100 ps。 在 单 周期 模型 中 ， 每 一 条 指令 都 只 花费 一 个 时 钟 周期 
因此 ， 时 钟 周 期 必须 满足 最 慢 的 指令 。 

8 条 指令 中 每 一 条 指令 所 需要 的 执行 时 间 如 图 4-26 所 示 。 单 周期 模型 的 设计 必须 考虑 到 最 
修 的 指令 ， 在 图 4-26 中 是 ls， 因此 ， 每 一 条 指令 所 需要 的 执行 时 间 为 800 ps。 与 图 4-25 类 仪 ， 
图 4-27 比较 了 三 条 装载 指令 非 流 水 线 与 流水 线 方式 的 执行 过 程 ， 其 中 在 非 流水 线 方式 中 ， 第 一 
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条 与 第 四 条 指令 之 间 的 时 间 差 是 3 x800 ps =2400 ps。 







指令 类 型 。” | 指令 预 取 | 读 寄存 器 ， ALU 操作 | 数据 存 取 | 写 寄存 器 | 总 时 间 | 


zt | 0 | wm | om | om | mn 
x mm | om | mom | | an 


图 4-26 根据 各 功能 单元 所 需 时 间 计 算出 来 的 每 条 指令 的 总 执行 时 间 
假设 多 选 器 、 控 制 单元 、PC 访问 和 符号 扩展 单元 都 没有 延 时 。 






程序 200 400 600 800 1000 1200 1400 1600 1800 
顺序 
〈 按 指令 ) 


J]w $1, 100($0) 
lw $2, 200 ($0) 


lw $3, 300 ($0) 





200 400 600 800 1000 1200 1400 





200ps 200ps 200ps 200ps 200 ps 


图 4-27 单 周期 、 非 流水 线 的 指令 执行 过 程 (上 图 ) 与 流水 线 的 指令 执行 过 程 (下 图 ) 

两 者 水 用 相同 的 功能 单元 ， 各 功能 单元 的 处 理 时 间 如 图 4-26 所 示 。 在 这 种 情况 下 ， 指 令 的 执行 速度 提高 了 4 倍 ， 即 
从 800 ps 降 到 了 200 ps。 将 本 图 与 图 4-25 比较 。 在 洗衣 服 的 例子 中 ， 我 们 假设 所 有 步 又 需要 的 处 理 时 间 都 是 相等 的 。 
如 果 烘 干 机 运行 得 最 慢 ， 那 么 就 把 烘 干 的 时 间 设 定 为 一 个 步骤 需要 的 处 理 时 间 。 计 算 机 流水 线 的 处 理 时 间 也 受 限于 最 
盆 的 处 理 步 又 ， 即 ALU 操作 和 存储 器 访问 。 同 时 我 们 假设 对 寄存 器 堆 的 写 操作 发 生 在 时 钟 周期 的 前 半 段 ， 对 寄存 器 堆 
的 读 操作 发 生 在 时 钟 周期 的 后 半 段 ， 本 章 后 面 将 一 直 遵 循 这 个 假设 。 


所 有 的 流水 级 ( pipeline stage) 都 只 花费 一 个 时 钟 周期 的 时 间 ， 因 此 ， 时 钟 周期 必须 能 够 满 
是 最 慢 操作 的 执行 需要 。 这 就 像 在 单 周 期 模型 中 虽然 有 些 快 的 指令 的 执行 只 需要 500 ps， 但 它 必 
须 选 择 在 最 坏 情况 下 的 800 ps 作为 时 钟 周 期 一 样 ， 流 水 线 执行 模型 的 时 钟 周 期 也 必须 选择 最 坏 情 
多 下 的 200 ps 而 不 是 有 些 步 又 可 以 达到 的 100 ps。 流 水 线 能 够 将 性 能 提高 4 倍 : 第 一 与 第 四 条 指 
令 之 间 的 时 间 差 距 缩短 为 3 x 200 ps = 600 ps。 

我 们 可 以 把 上 面 讨论 的 流水 线 模型 能 够 获得 的 性 能 加 速 比 归纳 成 一 个 公式 。 如 果 流 水 线 各 
阶段 操作 平衡 ,那么 在 流水 线 机 器 上 的 指令 执行 时 间 为 (在 理想 情况 下 ) 

指令 执行 时 间 (流水 线 ) = 指令 执行 时 间 ( 非 流 水 线 ) /流水 线 级 数 

即 在 理想 情况 和 有 大 量 指令 的 情况 下 ,流水 线 所 带 来 的 加 速 比 与 流水 线 的 级 数 近似 相同 。 
例如 一 个 5 级 流水 线 能 获得 的 加 速 比 接近 于 5。 

这 个 公式 说 明 一 个 5 级 流水 线 在 800 ps 的 非 流水 线 执行 时 间 的 基础 上 获得 接近 5 倍 的 速度 提 
高 ， 即 相当 于 160 ps 的 时 钟 周期 。 然 而 ， 在 例子 中 显示 ， 各 级 间 并 不 是 完全 平衡 的 。 另 外 ， 流 水 
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线 引 入 了 一 些 开 销 ， 开 销 的 来 源 问题 稍 后 会 更 加 清楚 。 所 以 ， 在 流水 线 机 器 中 每 一 条 指令 的 执行 
时 间 会 超过 这 个 最 小 的 可 能 值 ， 因 此 流水 线 能 够 获得 的 加 速 比 也 就 小 于 流水 线 的 级 数 。 

此 外 ， 即 使 我 们 在 前 面 的 分 析 中 断言 能 将 指令 的 执行 速度 提高 4 倍 ， 但 在 本 例 中 并 没有 反映 
出 来 ， 它 实际 获得 的 加 速 比 为 2400 ps/1400 ps， 这 是 因为 执行 指令 的 数量 不 够 多 。 如 果 增 加 执行 
指令 的 数目 将 会 发 生 什么 呢 ? 我 们 首先 将 前 面 图 中 的 指令 增加 到 1 000 003 条 ， 也 就 是 说 在 上 面 
的 流水 线 例子 中 加 入 1 000 000 条 指令 ， 每 一 条 指令 都 将 会 使 整个 的 执行 时 间 增 加 200 ps， 因 此 ， 
整个 的 执行 时 间 就 变 成 1 000 000 x200 ps + 1400 ps， 即 200 001 400 ps。 在 非 流水 线 的 例子 中 ,我 
们 也 加 入 1 000 000 条 指令 ,每 条 指令 的 执行 时 间 是 800 ps， 因 此 整个 的 执行 时 间 为 1 000 000 x 
800 ps + 2400 ps， 即 800 002 400 ps。 在 这 种 理想 的 条 件 下 ， 非 流水 线程 序 与 流水 线程 序 的 实际 执 
行 时 间 的 比值 就 非常 接近 于 两 者 指令 平均 执行 时 间 的 比值 ， 即 为 

800 002 400 ps/200 001 400 ps =800 ps/200 ps =4. 00 

流水 线 所 带 来 的 性 能 提高 是 通过 增加 指令 的 吞吐 率 ， 而 不 是 减少 单条 指令 的 执行 时 间 实 现 

的 。 由 于 实际 程序 都 会 执行 成 千 上 万 条 指令 ， 因 此 ， 指 令 的 吞吐 率 是 一 个 很 重要 的 参数 。 


4.5.1 面向 流水 线 的 指令 集 设计 


尽管 上 面 的 例子 只 对 流水 线 进行 了 最 简单 的 说 明 ， 我 们 也 能 够 通过 它 讨 论 面向 流水 线 执行 
的 MIPS 指令 集 的 设计 。 

第 一 ， 所 有 的 MIPS 指令 的 长 度 都 是 相同 的 。 这 一 限制 简化 了 流水 线 的 第 一 级 取 指 与 第 二 级 译 
码 。 在 诸如 x86 之 类 的 指令 集中 ， 指 令 的 长 度 并 不 相同 ， 从 1 字 节 到 17 字 节 不 等 ， 这 样 将 会 给 流水 
线 的 执行 带 来 更 大 的 挑战 。 最 近 的 x86 体系 结构 实现 实际 上 是 将 x86 指令 转化 成 类 似 MIPS 指令 的 
简单 操作 ， 然 后 再 将 这 些 简单 操作 进行 流水 ， 而 不 是 直接 对 原始 的 x86 指令 流水 ! ( 见 4. 10 节 。) 

第 二 ，MIPS 只 有 很 少 的 几 种 指令 格式 ， 并 且 每 一 条 指令 中 的 源 寄存 器 位 置 都 是 相同 的 。 这 
种 对 称 性 意味 着 流水 线 的 第 二 级 在 确定 取 指 类 型 的 同时 就 能 够 开始 读 寄存 器 堆 。 如 果 MIPS 的 指 
令 格 式 是 非 对 称 的 ， 我 们 就 需要 将 第 二 级 一 分 为 二 ， 从 而 使 得 流水 线 的 级 数 变 为 6。 稍 后 我 们 将 
看 到 长 流水 线 的 缺点 。 

第 三 ，MIPS 中 的 存储 器 操作 数 仅 出 现在 存 取 指令 中 。 这 一 限制 意味 着 可 以 利用 执行 级 计算 
仔 储 器 地 址 ， 然 后 可 以 接着 在 下 一 级 访问 存储 器 。 如 果 可 以 直接 操作 内 存 中 的 操作 数 (就 像 在 
x86 中 那样 )， 那 么 第 3 级 与 第 四 级 将 会 扩展 为 地 址 计算 、 存 储 访问 和 执行 3 级 。 

第 四 ， 如 第 2 章 所 述 ， 所 有 操作 数 必须 在 存储 器 中 对 齐 。 因 此 ， 我 们 不 需要 担心 个 数据 传输 指 
令 需 要 访问 两 次 存储 器 的 情况 ， 所 请 求 的 数据 可 以 在 一 级 流水 线 内 在 处 理 器 与 存储 器 之 间 完 成 传输 。 


4. 5.2 流水 线 寺 有 险 


流水 线 有 这 样 一 种 情况 ， 在 下 一 个 时 钟 周期 中 下 一 条 指令 不 能 执行 。 这 种 情况 称 为 冒险 
(hazard) 。 我 们 将 介绍 三 种 流水 线 冒 险 。 

1. 结构 冒险 

第 一 种 冒险 叫做 结构 冒险 ”。 即 硬件 不 支持 多 条 指令 在 同一 时 钟 周期 执行 。 在 洗衣 店 的 例子 
由， 如 果 用 洗衣 烘 干 一体 机 代替 独立 的 洗衣 机 与 烘 干 机 ， 或 者 如 果 你 的 室友 正在 做 其 他 的 事情 
而 个 能 带 助 你 将 衣服 收拾 好 ， 都 会 发 生 结构 冒险 。 如 果 发 生 上 述 情况 ， 那 我 们 精心 构筑 起 来 的 流 
水 线 就 会 受到 破坏 。 

正如 我 们 在 上 面 所 说 的 那样 ，MIPS 的 指令 集 是 为 流水 线 设计 的 。 因 此 ， 它 就 使 得 设计 者 在 


后 ”结构 冒险 (structural hazard ) : 因 缺 乏 硬 件 支持 而 导致 指令 不 能 在 预定 的 时 钟 周期 内 执行 的 情况 。 
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设计 流水 线 时 能 够 非常 容易 地 避免 结构 冒险 。 假 设 图 4-27 的 流水 线 结构 只 有 一 个 存储 器 而 不 是 
两 个 存储 器 ， 那 么 如 果 有 第 四 条 指令 的 话 ， 第 一 条 指令 在 访问 存储 器 的 同时 第 四 条 指令 将 会 在 
同一 存储 器 中 预 取 指 令 ， 流 水 线 就 会 发 生 结 构 冒 险 。 

2. 数据 冒险 

数据 冒险 发生 在 由 于 一 条 指令 必须 等 待 另 一 条 指令 的 完成 而 造成 流水 线 暂 停 的 情况 下 。 假 
设 你 在 折 敬 衣服 时 发 现 有 一 只 短 福 找 不 到 与 之 配对 的 男 一 只 。 你 可 能 做 的 是 下 楼 到 你 的 房间 ， 
在 衣 柚 中 找 ， 看 是 否 能 找到 男 一 只 。 很 明显 ， 当 你 在 找 的 时 候 , 已 经 烘 干 且 正 需 要 折 秋 的 衣服 以 
及 已 经 洗 完 且 正 筷 要 烘 干 的 衣服 不 得 不 搁置 一 边 。 

在 计算 机 流水 线 中 ， 数 据 冒 险 是 由 于 一 条 指令 依赖 于 更 早 的 一 条 还 在 流水 线 中 的 指令 造成 
的 (这 是 一 种 在 洗衣 店 例子 中 不 存在 的 情况 ) 。 举 个 例子 来 说 ,假设 有 一 条 加 法 指令 ， 它 之 后 紧 
跟着 一 条 减法 指令 ， 而 减法 指令 要 使 用 加 法 指令 的 和 ($s0): 


add $s0, $toO , $t1 
sub $t2, $s0, $t3 


在 不 做 任何 干涉 的 情况 下 ， 这 一 数据 冒险 会 严重 地 阻碍 流水 线 。 加 法 指令 直到 第 五 步 才 能 
号 回 它 的 结果 ， 这 就 意味 着 在 流水 线 中 浪费 了 三 个 时 钟 周期 。 

里 然 可 以 试图 通过 编译 器 来 避免 这 种 数据 冒险 的 发 生 ， 但 实际 上 这 种 努力 很 难 令 人 满意 。 
因为 这 种 冒险 的 发 生 过 于 频繁 而 且 导 致 的 延迟 太 长 ， 因 此 不 可 能 指望 编译 器 把 我 们 从 这 种 困境 
当中 解脱 出 去 。 

一 种 最 基本 的 解决 方法 是 基于 以 下 观察 : 在 解决 数据 冒险 问题 之 前 不 需要 等 待 指令 的 执行 
结束 。 对 于 上 述 的 代码 序列 ， 一 旦 ALU 生成 了 加 法 运算 的 结果 ， 就 可 以 将 它 用 作 减 法 运算 的 一 
个 输入 项 。 从 内 部 资源 中 直接 提前 得 到 缺少 的 运算 项 的 过 程 称 为 转发 8 或 者 旁 路 。 

EN 浊 两 条 指令 问 的 转发 

对 于 上 述 的 两 条 指令 ， 说 明 如 何 使 用 转发 将 流水 线 各 级 连接 起 来 。 图 4-28 描述 了 流水 线 的 

五 级 。 与 图 4-25 中 的 洗衣 上 店 流水 线 类 似 ， 每 条 指令 的 数据 通路 排 成 一 行 。 


200 400 600 800 1000 
时 间 





add $s0, $t0. $t] 





图 4-28 指令 流水 线 的 图 形 表示 ， 其 与 图 4-25 中 的 洗衣 店 流水 线 类 似 

本 图 以 及 本 章 均 使 用 图 形 符号 来 代表 流水 线 各 级 使 用 的 物理 资源 。 这 些 符 号 在 五 级 流水 线 中 所 代表 的 意义 
分 别 是 : IF 表示 取 指 阶段 ， 其 外 方 框 表示 指令 的 存储 器 ，ID 表示 指令 的 译 码 或 寄存 器 堆 的 读 取 阶 段 ， 外 边 
的 虚线 方 框 表示 要 读 取 的 寄存 器 堆 ; EX 表示 指令 的 执行 阶段 ， 外 边 的 图 符 表示 ALU，MEM 表示 存储 器 访问 
阶段 ， 包 围 它 的 方 框 代表 数据 存储 器 ; WB 表示 写 回 阶段 ， 包围 它 的 虚线 方 框 代表 被 写 回 的 寄存 器 堆 。 阴 影 
表示 该 资源 被 指令 所 使 用 。 因 为 add 指令 在 这 -- 步 并 不 读 取 数据 存储 器 ， 所 以 MEM 没有 阴影 。 寄 存 器 堆 或 
存储 器 右 半边 的 阴影 表示 它们 在 此 步骤 中 被 读 了 到， 左 半 边 的 阴影 表示 它们 在 此 步 双 中 被 写 入 。 因此 ， 由 于 第 
一 步 需 要 读 取 寄 存 器 堆 ，ID 的 右 半边 有 阴影 ， 而 由 于 第 五 步 中 需要 写 人 寄存 器 堆 ，WB 的 左 半 边 有 阴影 。 


Ar 
答案 


图 4-29 表示 了 把 add 指令 执行 后 的 $s0 中 的 值 作 为 suh 指令 执行 的 输入 的 转发 连接 。 


昌 数据 冒险 (data hazard) ;也 称 为 流水 线 数据 冒险 ( pipeline data hazard) ， 即 因 无 法 提供 指令 执行 所 需 数据 而 导致 
指令 不 能 在 预定 的 时 钟 周 期 内 执行 的 情况 。 

加 转发 (iorwarding) : 也 称 为 旁 路 (bypassing) 。 一 种 解决 数据 冒险 的 方法 ， 具 体 做 法 是 从 内 部 寄存 器 而 非 程序 员 
可 见 的 寄存 器 或 存储 器 中 提前 取出 数据 。 
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程序 

执行 200 400 600 800 1000 

顺序 | 
( 按 指令 ) 


add $s0, $t0O, $t1 


sub $t2, $s0, $t3 





图 4-29 转发 的 图 形 表示 
图 中 的 连接 表示 从 add 指令 的 EX 操作 输出 到 sub 指令 的 EX 操作 输入 的 转发 路 径 ， 从 而 替换 掉 在 sub 的 第 二 步 
从 寄存 器 $s0 读 取 的 值 。 


在 图 4-29 中 ， 只 有 当 目 标 步骤 在 时 间 上 晚 于 源 步骤 时 转发 的 路 径 才 有 效 。 例 如 ， 从 前 一 条 
指令 存储 器 访问 的 输出 至 下 一 条 指令 执行 的 输入 就 不 能 实现 转发 ， 因 为 那样 的 话 将 意味 着 时 间 
的 倒流 。 

转发 可 以 工作 得 很 好 ， 其 具体 内 容 将 在 4.7 节 详 细 介绍 。 然 而 它 并 不 能 够 避免 所 有 流水 线 阻 
塞 的 发 生 。 例 如 ， 假 设 第 一 条 指令 不 是 aaa 而 是 装载 $so 寄存 器 的 内 容 ， 正 如 图 4-29 所 描述 的 那 
样 ， 由 于 数据 间 的 依赖 ， 所 需要 的 数据 只 有 在 前 一 条 指令 流水 线 的 第 四 级 完成 之 后 才能 生效 ， 这 
对 于 sub 指令 的 第 三 级 输入 来 说 就 太 迟 了 。 因 此 ， 如 图 4-30 所 示 ， 即 使 采用 了 转发 机 制 ， 在 遇 
到 装载 - 使 用 型 数据 崩 险 时， 流水 线 不 得 不 阻塞 一 个 步骤 。 图 中 显示 了 一 个 重要 的 流水 线 概 
念 ， 正 式 的 叫 法 是 流水 线 阻 塞 ”， 但 是 它 经 常 被 昵称 为 气泡 (bubble) 。 我 们 经 常会 在 流水 线 中 看 
到 阻塞 的 发 生 。4. 7 节 将 给 出 处 理 这 种 复杂 情况 的 方法 ， 即 采用 硬件 上 检测 阻塞 和 软件 上 重新 安 
排 代码 顺序 等 方法 来 避免 装载 - 使 用 型 数据 冒险 。 


程序 
执行 
顺序 时 间 ee 


( 按 指令 ) 


| sub $t2, $s0, $t3 i ID 


图 4-30 当 一 条 R 型 指令 之 后 紧 有 眼 着 一 条 需要 使 用 其 结果 的 装载 指令 了 时， 即使 使 用 了 转发 
机 制 ， 仍 然 会 产生 一 次 阻塞 
如 果 不 进 行 一 次 阻塞 的 话 ， 从 存储 器 访问 的 输出 到 执行 级 的 输入 之 间 的 路 径 在 时 间 上 将 是 倒 着 的 ， 这 显然 是 不 可 
a Se a 0 
况 。 


重新 安排 代码 以 避免 流水 线 阻塞 
考虑 下 面 这 段 C 代码 ， 








昌 ”装载 -使 用 型 数据 冒险 (load-use data hazard) ; 一 类 特殊 的 数据 冒险 ， 指 当 装 载 指令 要 取 的 数 还 没 取 回来 时 其 
他 指令 就 需要 使 用 的 情况 。 
提 ”流水 线 阻 塞 (pipeline stall) : 也 称 为 气泡 (bubble) 。 为 了 解决 冒险 而 实施 的 一 种 阻塞 。 
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a 二 b+ e; 
a= b+f; 


下 面 是 这 段 C 代码 对 应 的 MIPS 指令 ， 假 设 所 有 的 变量 都 在 存储 由 中 ， 且 以 $sto 为 基 址 进行 
寻 址 : 


lw $t1 ,0 ($t0) 


lw $t2,4 ($+0) 
adq $t3, $t1, $+t2 
SW $t3,12 ($t0) 


add $t5, $t1, $t4 
SW $t5,16 ( $t0O) 


试 找 出 上 述 代码 段 中 存在 的 冒险 并 试 着 重新 安排 指令 顺序 以 避免 流水 线 阻 塞 。 

两 条 add 指令 都 存在 冒险 ， 因 为 它们 都 依赖 于 上 一 条 lw 指令 。 注 意 ， 通 过 转发 可 以 消除 一 
些 潜 在 的 冒险 ， 包 括 第 一 条 add 指令 对 第 一 条 lw 指令 的 依赖 和 sw 指令 导致 的 冒险 。 而 将 第 3 条 
1w 指令 上 移 到 第 3 条 指令 的 位 置 则 可 以 进一步 消除 所 有 冒险 ; 


lw $t1 ,0 ($t0) 
lw $t2,4 ($tO) 
lw $t4 ,8 ($tO) 
add $t3, $t1, $t2 
Sw $t3,12 ($t0) 
add $t5, $t1 , $t4 
SW $t5,16 ($+0) 


在 一 个 具有 和 转发 功能 的 流水 线 处 理 嚣 中， 执行 这 个 重 排序 后 的 指令 序列 要 比 上 面 那 个 指令 
序列 快 2 个 时 钟 周期 。 

在 前 面 介绍 了 设计 适应 流水 线 的 MIPS 体系 结构 指令 集 的 四 个 原则 ， 由 转发 可 以 得 到 设计 
MIPS 体系 结构 指令 集 的 另 一 个 原则 。 即 每 条 MIPS 指令 最 多 只 写 一 个 结果 并 且 在 流水 线 的 最 后 一 
级 执行 。 如 果 每 条 指令 要 写 多 个 结果 或 写 在 流水 线 更 早 阶 段 进行 则 转发 设计 要 复杂 得 多 。 

精 解 :“ 转 发 ”这 个 名 称 来 源 于 将 结果 从 前 面 的 指令 直接 发 送 到 后 面 的 指令 的 思想 。“ 旁 路 ”这 个 名 称 
来 源 于 把 寄存 器 堆 中 的 结果 直接 传递 到 需要 的 单元 中 。 

3. 控制 冒险 

第 三 种 冒险 叫做 控制 冒险 。 这 种 冒险 会 在 下 面 的 情况 下 出 现 : 决策 依赖 于 一 条 指令 的 结 
采 ， 而 其 正在 执行 中 。 

假设 洗衣 店 的 店员 们 接 到 了 一 个 令 人 高 兴 的 任务 : 为 一 个 足球 队 清 洗 队 服 。 由 于 衣服 非 党 
脏 , 我 们 需要 确定 清洗 剂 的 用 量 以 及 设置 水 温 以 保证 能 够 将 衣服 清洗 干净 ， 但 同时 要 保证 清洗 
剂 的 用 量 不 能 过 大 ， 以 避免 过 度 磨损 衣物 。 在 洗衣 店 流水 线 中 ， 店 员 只 有 等 到 第 二 步 烘 干 衣 服 以 
后 才能 确定 是 否 需要 改变 设置 。 在 这 种 情况 下 应 该 怎么 办 呢 ? 

有 两 种 办 法 可 以 解决 洗衣 店 的 控制 冒险 ， 同 样 的 方法 也 可 以 应 用 到 计算 机 中 。 

阻塞 (stall) : 在 第 一 批 衣服 被 烘 干 之 前 按 串 行 的 方式 操作 ， 并 且 重 复 这 一 过 程 直到 找到 正 
确 的 洗衣 设置 为 止 。 

这 种 保守 的 方法 当然 可 以 保证 正常 工作 , 但 它 的 速度 比较 慢 。 


© 控制 冒险 (control hazard) : 也 称 为 分 支 冒险 〈branch hazard) 。 因 为 取 到 的 指令 并 不 是 所 需要 的 (或 者 说 指令 地 
址 的 变化 并 不 是 流水 线 所 预期 的 ) 而 导致 指令 不 能 在 预定 的 时 钟 周 期 内 执行 。 


第 4 章 处 理 器 .209 


计算 机 中 的 决策 就 是 分 支 指令 。 注 意 ， 在 取 分 文 指 令 之 后 ， 紧 跟着 就 会 取 下 一 条 指令 。 但 是 
流水 线 并 不 知道 下 一 条 真正 要 执行 的 指令 在 哪里 ， 因 为 它 才刚 刚 从 指令 存储 器 中 把 分 支 指令 给 
取出 来 ! 跟 洗 衣 后 的 例子 一 样 ， 一 种 可 能 的 解决 方法 是 取 分 支 指令 后 立即 阻塞 流水 线 ， 直 到 流水 
线 确定 分 支 指令 的 结果 并 知道 下 一 条 真正 要 执行 的 指令 在 哪 为 止 。 

假设 可 以 加 入 足够 多 的 硬件 使 得 在 流水 线 的 第 二 级 能 测试 寄存 器 、 计 算 分 支 地 址 并 更 新 PC 
(详情 见 4. 8 六 ) 。 通 过 使 用 这 些 额 外 的 硬件 ， 包 含 条件 分 支 的 流水 线 执行 情况 如 图 4-31 所 示 。 
如 果 分 支 未 实现 应 执行 的 lw 指令 ， 会 被 阻塞 一 个 200 ps 的 额外 时 钟 周期 。 


程序 200 400 600 800 1000 1200 1400 


执行 时 间 
3 区 


时 i i 


a 了 本 国人 的 二 


图 4-31 在 每 一 个 条 件 分 支 上 阻塞 是 避免 流水 线 控制 冒险 的 一 种 解决 方法 
这 个 例子 假设 分 支 发 生 ， 并 且 分 支 目标 地 址 处 是 一 条 OR 指令 。 分 支 指令 之 后 会 插入 一 个 周期 的 流水 线 阻 塞 ， 
或 者 叫 气泡 。 事 实 上 ， 产 生 阻 塞 的 过 程 有 些 复杂 ， 我 们 会 在 4. 8 节 说 明 这 一 点 。 这 种 方法 对 性 能 的 影响 与 插入 一 
个 气泡 是 一 样 的 。 


阻塞 对 分 支 性 能 的 影响 

评价 分 支 阻塞 对 单位 指令 时 钟 周期 数 〈CPI) 的 影响 。 假 设 其 他 所 有 指令 的 CPI 都 为 工 
答案 

第 3 章 的 图 3-27 说 明 在 SPECint2006 中 ， 分 支 指令 约 占 执行 指令 的 17% 。 由 于 其 他 指令 的 
CPI 都 为 1， 而 分 支 指令 阻塞 要 多 一 个 时 钟 周期 ， 因 此 平均 CPI 为 1.17。 与 理想 的 情况 相 比 ， 现 
在 的 速度 下 降 了 1.17 倍 。 

如 果 不 能 在 第 二 级 解决 分 支 问题 (这 种 情况 在 较 长 的 流水 线 中 经 常 发 生 ) ， 那 么 分 支 结 构 上 
的 阻塞 将 导致 更 大 的 速度 下 降 。 对 很 多 计算 机 来 说 ， 这 种 阻塞 的 方法 代价 太 大 ， 因 此 也 就 产生 了 
另外 一 种 消除 控制 冒险 的 方法 : 

预测 (predict) : 如 果 你 有 自信 正确 地 设置 洗衣 设备 来 洗涤 那些 队 服 (可 以 预测 它 的 正确 工 
作 条 件 ) ， 那 么 就 可 以 在 第 一 批 衣服 烘 干 的 同时 清洗 第 二 批 衣 服 。 

这 种 做 法 在 预测 正确 的 时 候 不 会 降低 流水 线 的 速度 ， 但 是 一 旦 预测 错误 ， 就 不 得 不 将 已 经 
洗 过 的 队 服 重新 洗 一 遍 。 

计算 机 的 确 是 采用 预测 的 方法 来 处 理 分 支 的 。 一 种 简单 的 预测 方法 就 是 总 预测 分 支 未 发 生 。 
当 预 测 正确 (分 支 未 发 生 ) 的 时 候 ， 流 水 线 会 全 速 地 执行 。 只 有 当 分 支 发 生 时 流水 线 才 会 阻塞 ， 
图 4-32 给 出 了 这 样 一 个 例子 。 

一 和 更 加 成 熟 的 分 支 预测 方法 是 预测 一 些 分 支 发 生 而 预测 另 一 些 分 支 不 发 生 。 如 在 上 面 洗 
农 店 的 例子 中 ,夜晚 和 主场 比赛 的 队 服 使 用 一 个 洗衣 设备 设置 ， 而 白天 或 客场 比赛 的 队 服 则 使 
下 性 一 个 设置 。 在 计算 机 程序 中 ， 循 环 体 底部 的 分 支 总 是 会 跳 回 到 循环 体 的 顶部 。 在 此 种 情况 下 
由 于 分 支 总 是 发 生 并 且 向 前 跳 转 ， 因 此 我 们 可 以 预测 分 支 会 跳 转 到 前 面 的 某 一 地 址 处 ， 









beq $1, $2, 40 


扣 分支 预测 (branch prediction ) : 一 种 解决 分 支 冒 险 的 方法 。 它 项 测 分 支 结果 并 立即 沿 预测 方向 执行 ， 而 不 是 等 
正 的 分 支 结 果 确 定 后 才 开 始 执行 。 


210 .第 4 章 处 理 器 


程序 200 400 600 800 iooo 1200 1400 
执行 时 间 






add $4, $5, $6 





bed $1, $2, 40 





全 | Reg| ALU | 和 站 |Reg 
200 ps L 预 取 访问 
*| 指令 
lw $3, 300 {$0) 200 ps 预 取 
程序 200 400 600 800 1000 1200 1400 
执行 有 时间 
adqd $4, $5, $6 


beg $1, $2, 40 





气泡 .气泡 ”气泡 ”气泡 ”气泡 


org es . |] Au 是 fe 
400 ps ALU 访问 Reg 


图 4-32 ”预测 分 支 未 发 生 是 一 种 避免 流水 线 控制 冒险 的 解决 方法 
上 图 显 示 的 是 分 支 未 发 生 的 流水 线 ， 下 图 显示 的 是 分 支 发 生 了 的 流水 线 。 正 如 我 们 在 图 4-31 中 提 到 的 那样 ， 这 种 插 
入 气泡 的 方式 是 一 种 简化 的 表示 方法 ， 至 少 对 紧 眼 分 支 指令 的 下 一 个 时 钟 周期 而 言 是 这 样 。4. 8 节 将 给 出 其 中 的 细节 。 

这 种 分 支 预 测 的 方法 依赖 于 始终 不 变 的 行为 ， 它 没有 考虑 特定 分 支 指 令 的 特点 。 动 态 硬件 
预测 恬 与 这 种 方法 截然 不 同 ， 它 的 预测 取决 于 每 一 条 指令 的 行为 ， 并 且 在 整个 程序 生命 期 内 可 
能 改变 分 支 的 预测 结果 。 用 洗衣 店 的 例子 来 说 ， 使 用 动态 预测 方法 ， 店 员 将 会 观察 衣服 脏 的 程度 
并 预测 一 个 洗衣 设备 的 设置 ， 然 后 在 本 次 预测 成 功 的 基础 上 调整 下 一 次 的 预测 行为 。 

计算 机 中 动态 预测 方法 的 一 种 比较 普遍 的 实现 方式 是 保存 每 次 分 支 的 历史 记录 ， 然 后 利用 
这 个 历史 记录 来 预测 。 稍 后 我 们 将 看 到 ， 历 史记 录 的 数量 和 类 型 足够 多 时 ， 这 种 硬件 预测 分 支 的 
方式 能 够 达到 90% 的 正确 率 ( 见 4.8 节 ) 。 当 预测 错误 时 ,流水线 控制 必须 确保 被 错误 预测 的 分 
文 后 面 的 指令 执行 不 会 生效 ， 并 且 必 须 在 正确 的 分 支 地 址 处 重新 开始 启动 流水 线 。 在 洗衣 店 的 
例子 中 ， 我 们 必须 停止 接受 新 的 任务 ， 从 而 可 以 重新 执行 错误 预测 的 任务 。 

如 同 其 他 解决 控制 冒险 的 方法 一 样 ， 较 长 的 流水 线 会 恶化 预测 的 性 能 ， 并 会 提高 错误 预测 
的 代价 。 控 制 冒险 的 解决 办 法 在 4.8 节 中 将 有 更 加 详细 的 描述 。 

精 解 : 还 有 一 种 解决 控制 冒险 的 方法 ， 即 延迟 决定 ( delayed decision) 。 与 洗衣 店 的 例子 类 比 ， 每 当 要 
决定 如 何 洗衣 服 时 ， 就 将 一 批 非 足 球 队 的 衣服 放 进 洗衣 机 里 ， 同 时 等 待 足球 队 的 制服 被 烘 干 。 只 要 有 足够 
多 不 需要 决策 的 脏 衣服 ， 这 种 方法 就 很 有 效 。 

在 计算 机 中 这 种 方法 被 称 为 延迟 分 支 (delayed branch ) ， 在 MIPS 体系 结构 中 也 得 到 了 实际 应 
用 。 延 迟 分 支 顺序 执行 下 一 条 指令 ， 在 一 条 指令 延迟 之 后 再 开始 执行 分 支 。 由 于 编译 器 会 自动 排列 
指令 使 得 分 支 的 行为 达到 程序 员 的 要 求 ， 因 此 这 个 过 程 对 MIPS 的 汇编 程序 员 们 是 透明 的 。MIPS 编 
至 器 会 在 延迟 分 支 指令 的 后 面 紧 跟 着 放 一 条 不 受 该 分 支 影响 的 指令 。 发 生 了 的 分 支 会 改变 这 条 安全 
指令 之 后 的 指令 地 址 。 在 我 们 的 例子 中 ， 图 4-31 中 分 支 前 的 aaa 指令 不 影响 分 支 ， 所 以 可 以 把 它 移 
到 分 文 之 后 以 完全 隐藏 分 支 延迟 。 因 为 只 有 当 分 支 延 迟 较 短 时 ， 延 迟 分 支 才 有 效 ， 所 以 没有 处 理 器 
使 用 超过 一 个 时 钟 周期 的 延迟 分 支 。 对 更 长 的 分 支 延迟 ， 一 般 都 使 用 硬件 分 支 预测 器 。 


4. 5. 3 对 流水 线 概述 的 小 结 


流水 线 是 一 种 在 顺序 指令 流 中 利用 指令 间 并 行 性 的 技术 ， 与 多 处 理 器 编程 相 比 ， 其 优势 在 
于 它 对 程序 员 是 不 可 见 的 。 
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在 以 下 几 节 中 ， 我们 首先 使 用 4.4 节 单 周期 实现 方式 的 MIPS 指令 子 集 及 其 简化 的 流水 线 方 
式 介 绍 关 于 流水 线 的 一 些 基本 概念 ， 然 后 讨论 引入 流水 线 所 带 来 的 一 些 问 题 以 及 流水 线 在 一 些 
典型 情况 下 所 能 获得 的 性 能 提升 。 

如 果 想 了 解 更 多 软件 和 流水 线 对 性 能 的 意义 ， 并 且 你 已 经 具有 足够 的 背景 知识 ， 可 以 直接 
跳 到 4. 10 证 。4. 10 节 介 绍 了 一 些 高 级 流水 线 概念 ， 如 超标 量 、 动 态 调度 等 。4. 11 节 介 绍 了 一 些 
最 新 的 微 处 理 器 流水 线 。 

有 反之， 如果 你 想 深 入 了 人 解 流水 线 的 实现 方式 和 如 何 处 理 冒 险 现象 ， 可 以 接着 阅读 后 面 的 几 节 。 
4.6 节 介 绍 了 一 个 流水 线 的 数据 通路 和 基本 控制 设计 。 在 4.6 节 的 基础 上 ， 你 可 以 在 4.7 节 中 学 习 
转发 和 阻塞 的 实现 。 紧 接着 4. 8 节 介 绍 了 处 理 分 支 冒险 的 方法 。 而 4.9 节 则 介绍 了 异常 是 如 何 处 理 的 。 

对 下 面 每 个 指令 序列 ， 说 明 哪 个 必须 阻塞 ， 哪 个 只 使 用 转发 就 可 以 避免 阻塞 ， 而 哪个 既 不 需要 阻塞 也 
不 需要 转发 就 可 以 执行 。 





ET ET 
addi $t1, $t0, 
add $t1, $t0, $t0 addi $t2，$t0 ,要 
lw $t0,0 ( 80 ) addi $t2 ,St0 , 想 addi $t3,，S$t0 ,把 
add $tl, $t0, $t0 addi $t4,$tl, 相 addi $t3,$t0, 柚 


addi $+t5, $t0,#5 


_ 理解 程序 性 能 | 

除了 存储 系统 以 外 ,流水线 的 有 效 运作 是 决定 处 理 器 CPI 乃至 其 性 能 最 重要 的 因素 。 正 如 我 
们 次 在 4. 10 节 看 到 的 那样 ， 理 解 现代 多 发 射流 水 线 处 理 器 的 性 能 是 一 项 复杂 的 任务 ， 相 对 简单 
流水 线 处 理 器 而 言 需要 理解 更 多 的 问题 。 不 管 怎样 ， 结 构 置 险 、 数 据 冒 险 和 控制 冒险 在 简单 流水 
线 处 理 器 和 更 复杂 的 流水 线 处 理 器 中 都 是 非常 重要 的 。 

对 现代 流水 线 而 言 ， 结 构 置 险 经 常 出 现在 浮 点 单元 附近 ， 浮 点 单元 是 一 个 几乎 不 可 能 完全 流水 
的 地 方 。 与 之 相 比 ， 控 制 置 险 一 般 出 现在 整数 程序 中 ， 因 为 其 中 分 支出 现 的 概率 更 高 ， 也 更 难 预 
测 。 数 据 冒险 在 整数 和 浮 点 程序 中 都 可 能 成 为 性 能 瓶颈 。 一 般 来 说 浮 点 程序 中 的 数据 置 险 更 容易 处 
下 ,因为 低 的 分 支出 现 频率 和 规则 的 存储 器 存 取 使 得 编译 器 有 更 大 的 空间 调度 指令 以 避免 冒险 。 与 
之 相 比 ， 在 整数 程序 中 涉及 大 量 的 指针 ， 存 储 器 的 存 取 更 不 规则 ， 做 这 样 的 优化 就 要 困难 一 些 。 正 
如 我 们 将 在 4.10 节 看 到 的 那样 ， 有 很 多 编译 咒 和 基于 硬件 的 技术 通过 调度 来 减少 数据 间 的 依 问 。 
重点 | 

流水 线 增加 了 同时 执行 的 指令 数目 以 及 指令 开始 和 结束 的 速率 。 流水 线 并 不 能 够 减少 单一 
指令 的 执行 时 间 ， 也 称 为 延迟 ”。 例 如 ， 一 个 五 级 流水 线 仍然 需要 五 个 周期 来 完成 一 条 指令 。 用 
第 1 章 的 术语 来 描述 就 是 流水 线 提高 了 指令 的 吞吐 率 而 不 是 减少 了 单条 指令 的 执行 时 间或 延迟 。 

对 流水 线 的 设计 者 来 说 ， 指 令 集 既 可 能 将 事物 简单 化 ， 也 可 能 将 事物 复杂 化 。 流 水 线 设计 者 
必须 解决 结构 冒险 、 控 制 胃 险 和 数据 冒险 。 而 分 支 预 测 、 转 发 和 阻塞 机 制 能 够 在 保证 得 到 正确 结 
采 的 前 提 下 提高 计算 机 的 性 能 。 


4.6 流水 线 数据 通路 及 其 控制 
看 起 来 东西 很 多 ， 其 实 不 然 。 





Tallulah Bankhead, remark to Alexander Woollcott ，1922 


加 延迟 (latency): 流水 线 的 级 数 或 者 顺序 执行 过 程 中 两 条 指令 间 的 级 数 。 
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图 4-33 是 摘自 4. 4 节 的 一 个 单 时 钟 周期 的 数据 通路 。 将 指令 划分 为 五 个 阶段 意味 着 一 个 流 
水 线 采 用 五 级 ， 也 就 意味 着 在 任何 一 个 单 时 钟 周 期 内 ， 最 多 会 执行 五 条 指令 。 因 此 必须 把 数据 通 
路 分 为 五 个 部 分 ， 每 一 部 分 用 与 之 对 应 的 指令 执行 阶段 来 命名 。 
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4-33 4.4 节 中 的 单 时 钟 周期 数据 通路 (与 图 4-17 类 似 ) 
图 中 自 左 至 右 把 指令 的 每 一 步 映射 到 数据 通路 中 。PC 更 新 与 写 回 过 程 是 唯一 的 例外 (图 中 用 灰色 线 表 示 ) ， 其 
发 送 ALU 结果 或 存储 器 数据 到 左边 的 寄存 器 堆 中 。( 我 们 通常 使 用 灰色 线 表示 控制 ， 但 在 这 里 表示 数据 线 。) 


1) IF: 取 指 令 

2) ID: 指令 译 码 ， 读 寄存 器 堆 

3) EX: 执行 或 计算 地 址 

4) MEM: 存储 器 访问 

5) WB: 写 回 

图 4-33 的 五 个 部 分 大 致 与 数据 通路 相符 : 指令 与 数据 随 着 执行 过 程 从 左 到 右 依次 通过 五 级 
流水 线 。 正 如 洗衣 店 的 例子 一 样 ， 衣 服 沿 着 一 条 工作 线 依 次 完成 清洗 、 烘 干 和 整理 ， 而 不 会 反 向 
移动 。 

然而 ， 在 从 左 到 右 的 指令 流 中 有 两 个 例外 : 

。 写 回 阶段 ， 它 把 结果 写 回 数据 通路 中 间 的 寄存 器 堆 中 。 

。 选择 PC 的 下 一 个 值 时 ， 需 在 自 增 的 PC 和 MEM 级 的 分 支 地 址 间 进 行 选择 。 

这 两 个 从 右 向 左 的 数据 流 不 会 影响 当前 指令 ; 只 有 当前 指令 以 后 的 指令 才 会 受到 这 种 数据 
反问 活动 的 影响 。 需 要 注意 的 是 第 一 个 例外 会 导致 数据 冒险 ， 而 第 二 个 会 导致 控制 冒险 。 

一 种 表示 流水 线 数据 通路 的 方法 是 假定 每 一 条 指令 都 有 它 独立 的 数据 通路 ， 然后 把 这 些 数 
据 通 路 放 在 同一 时 间 轴 上 表示 出 它们 之 间 的 关系 。 图 4-34 在 同一 一 时 间 轴 上 表示 了 图 4-27 中 指令 
执行 过 程 中 各 自 的 数据 通路 (我 们 仍然 使 用 图 4-33 中 的 格式 来 表示 图 4-34 中 的 关系 )。 

从 表面 来 看 ， 图 4-34 中 的 三 条 指令 似乎 需要 三 条 数据 通路 。 事实 上 ， 通过 增加 保存 中 间 数 
据 的 寄存 器 ， 使 得 在 指令 执行 过 程 中 可 以 共享 部 分 数据 通路 。 

例如 ， 如 图 4-34 所 示 ， 指 令 存 储 器 只 在 每 条 指令 的 五 个 步骤 中 的 一 步 中 用 到 ， 因 此 我 们 允许 


E 
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它 在 其 他 四 步 中 被 其 他 的 指令 共享 。 为 了 在 其 他 四 步 中 保持 指令 的 值 ， 从 指令 存储 器 中 读 出 的 数据 
必须 保存 在 寄存 右 中 。 将 同样 的 方法 应 用 到 每 个 流水 线 级 中 ， 我 们 需要 在 图 4-33 中 各 级 间 有 分 割 线 
的 地 方 都 加 入 寄 仔 医 。 再 回 到 洗衣 店 的 例子 中 ， 这 里 可 以 用 篮子 在 两 个 步 又 间 存 放下 一 步 的 衣服 。 


程序 时 间 〔 按 时 钟 周期 ) 





lw $2, 200 ($0) 


| lw $3, 300 ($0) 








4-34 按 图 4-33 中 的 单 时 钟 周期 数据 通路 执行 的 指令 (假定 以 流水 线 方式 执行 ) 

与 图 4-28 到 图 4-30 类 似 ， 本 图 假设 每 一 条 指令 有 它 独立 的 数据 通路 ， 并 根据 使 用 情况 将 相应 的 部 分 涂 上 阴影 。 与 
这 些 图 不 同 的 是 ， 流 水 线 的 每 一 级 都 用 该 级 使 用 的 物理 资源 标示 ， 分 别 对 应 图 4-33 中 数据 通路 的 相应 部 分 。JM 表示 
指令 存储 器 与 取 指令 阶段 的 PC ，Reg 表示 指令 译 码 /寄存 器 堆 读 取 阶 段 (ID) 的 寄存 器 堆 和 符号 扩展 单元 ， 依 此 类 推 。 为 
了 保持 正确 的 时 序 ， 这 种 形式 的 数据 通路 把 寄存 器 堆 从 逻辑 上 划分 为 两 个 部 分 : 寄存 器 读 了 到 〈ID) 阶段 的 寄存 器 读 和 写 回 
(WB) 阶段 的 寄存 器 写 。 这 种 复 用 在 图 中 表示 为 : 在 人 D 级 当 寄 存 器 堆 没 有 被 写 人 时 ， 将 没有 阴影 的 寄存 器 堆 的 左 半 部 分 
用 虚线 表示 ; 而 在 WB 级 ， 当 寄存 骨 堆 没有 被 读 取 时 ， 将 没有 阴影 的 右边 部 分 用 虚线 表示 。 与 以 前 一 样 ， 假设 在 时 钟 周期 
的 前 半 部 分 写 寄存 器 堆 而 在 时 钟 周期 的 后 半 部 分 读 寄 存 器 堆 。 


图 4-35 描述 了 流水 线 的 数据 通路 ， 其 中 流水 线 寄存 器 用 灰色 表示 。 在 每 个 时 钟 周期 中 所 有 
指令 都 会 从 一 个 流水 线 寄 存 器 传递 到 另 一 个 流水 线 寄存 器 中 。 寄 存 器 以 被 该 寄存 器 分 开 的 两 个 
阶段 来 命名 ， 如 正 和 了 DD 之 间 的 流水 线 寄存 器 叫做 IF/ID。 


MEM/WB 














图 4-35 图 4-33 数据 通路 的 流水 线 版 本 
流水 线 寄存 器 (以 灰色 标识 ) 将 流水 线 的 各 部 分 分 开 。 为 了 存储 所 有 穿 过 它 的 数据 (用 线条 表示 ) ， 寄 存 器 
的 宽度 必须 足够 大 。 例 如 ， 因 为 TvJD 寄存 器 必须 同时 保存 从 存储 器 中 提取 出 来 的 32 位 指令 及 32 位 PC 自 增 


地 址 ， 所 以 它 的 宽度 必须 是 64 位 。 我 们 将 在 本 章 中 逐渐 增加 寄存 器 宽度 ， 目前 另外 三 个 流水 线 寄 存 器 的 宽度 
分 别 是 128 位 、97 位 和 64 位 。 


需要 注意 的 是 ， 在 写 回 阶段 的 后 面 没有 流水 线 寄存 器 。 所 有 指令 都 会 更 新 机 器 中 的 某 些 交 
如 奇 存 器 堆 、 存 储 器 或 PC 等 ， 因 此 各 个 流水 线 寄存 器 对 于 更 新 后 的 状态 来 说 是 多 余 的 。 例 
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如 ， 装 载 指令 会 把 它 的 结果 放 人 32 个 寄存 器 中 的 某 一 个 ， 以 后 任何 需要 此 数据 的 指令 只 需要 读 
取 相 应 的 寄存 器 就 可 以 了 。 

当然 ， 每 条 指令 都 会 更 新 PC， 不 管 是 自 增 还 是 设置 为 分 支 目 的 地 址 。PC 可 以 看 成 一 个 流水 
线 寄存 器 : 给 流水 线 的 IF 级 提供 数据 。 不 像 图 4-35 中 那些 灰色 的 流水 线 寄 存 器 ，PC 是 可 见 体系 
结构 寄存 器 的 一 部 分 ， 发 生 异常 时 必须 保存 它 的 内 容 ， 而 那些 流水 线 寄 存 器 的 内 容 可 被 丢弃 。 用 
洗衣 店 的 例子 来 说 ， 你 可 以 把 PC 看 成 洗涤 步骤 之 前 装 脏 衣 服 的 篮子 。 

为 了 描述 流水 线 的 工作 方式 ， 本 章 将 使 用 一 系列 图 片 来 表示 这 些 顺序 的 操作 。 这 些 内 容 需 要 一 
定时 间 去 理解 ， 但 不 要 害怕 ， 这 些 图 片 实际 上 比 它们 看 上 去 要 容易 理解 ， 因 为 可 以 对 比 观察 每 一 个 
时 钟 周期 内 所 发 生 的 变化 。4. 7 节 将 介绍 流水 线 指令 间 发 生 数据 冒险 的 情况 ， 这 里 暂时 忽略 。 

图 4-36 ~ 图 4-38 表示 了 装载 指令 在 通过 流水 线 的 5 级 时 数据 通路 的 活动 部 分 。 先 讨论 装 
载 指 令 是 因为 它 完全 使 用 了 流水 线 的 5 级 。 正 如 图 4-28 ~ 图 4-30 所 显示 的 那样 ， 当 寄存 器 


lw 
取 指 


IF/ID ID/EX EX/MEM MEM/WB 











EX/MEM MEM/WB 





4-36 下 和 1D: lv 指令 在 流水 线 中 的 第 一 、 二 步 ， 图 4-35 中 活动 的 数据 通路 部 件 用 灰色 表示 

这 种 灰色 的 表示 方法 与 图 4-28 相同 。 正 如 4.2 节 中 介绍 的 那样 ， 读 写 寄存 器 并 不 会 发 生 冲突 ， 因 为 寄存 器 
内容 的 变化 只 在 时 钟 的 边缘 发 生 ， 虽 然 Lw 指令 只 需要 第 二 级 中 寄存 器 1 的 值 ,但 由 于 处 理 器 并 不 知道 当前 是 
娜 一 条 指令 正在 被 译 码 ， 因 此 它 把 符号 扩展 后 的 16 位 常量 及 两 个 寄存 器 的 值 都 读 人 ID/EX 流水 线 寄存 器 中 。 
我 们 并 不 一 定 需要 所 有 这 三 个 操作 数 ， 但 是 保留 全 部 三 个 操作 数 能 简化 控制 。 
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或 存储 器 被 读 取 时 在 图 中 用 阴影 表示 其 右 半 部 分 ; 而 当 它 们 被 写 入 时 ， 用 阴影 来 表示 其 左 半 
部 分 。 

我 们 把 每 一 幅 图 中 活动 的 流水 线 级 用 指令 的 缩写 1w 和 流水 级 名 称 标 出 。 具 体 情况 如 下 : 

1) 取 指 令 : 图 4-36 的 顶端 表示 指令 使 用 PC 中 的 地 址 从 存储 器 中 读 取 数据 ， 然 后 将 数据 放 
入 IF/ID 流水 线 寄存 器 中 。PC 地 址 加 4 然后 写 回 PC 以 便 为 下 个 时 钟 周 期 做 好 准备 。 增 加 后 的 地 
址 同时 也 存 人 了 IF/ID 流水 线 寄存 器 中 以 备 后 面 的 指令 使 用 (如 peq)。 计 算 机 并 不 知道 所 取 指 
令 的 类 型 ， 所 以 必须 考虑 到 所 有 可 能 的 指令 ， 并 沿 流水 线 传递 所 有 可 能 有 用 的 信息 。 

2) 指令 译 码 与 寄存 器 堆 的 读 取 : 图 4-36 的 底部 显示 的 是 ZI 流水 线 寄存 髓 的 指令 部 分 ， 
其 中 包括 一 个 16 位 的 立即 数 (可 扩展 为 带 符号 的 32 位 数 ) 和 两 个 寄存 器 号 (用 于 读 取 寄存 
器 )。 这 三 个 值 和 自 增 的 PC 地 址 一 起 存 人 ID/EX 流水 线 寄存 器 中 。 这 里 同样 必须 传递 后 面 指 令 
可 能 需要 的 所 有 信息 。 

3) 执行 或 者 地 址 计算 图 4-37 表示 装载 指令 从 ID/EX 流水 线 寄存 器 中 读 取 由 寄存 器 1 传 过 来 
的 值 以 及 经 符号 扩展 后 的 立即 数 ， 并 用 ALU 将 它们 相 加 ， 和 值 存 人 EX/MEM 流水 线 寄存 器 中 。 





4-37 EX: lw 指令 在 流水 线 中 的 第 三 步 ， 图 4-35 中 活动 的 数据 通路 部 件 用 灰色 表示 
将 寄存 器 的 值 与 经 过 符号 扩展 的 立即 数 相 加 ， 其 和 放 入 EX/MEM 流水 线 寄存 器 中 。 


4) 存储 器 访问 : 图 4-38 的 顶端 表示 装载 指令 使 用 从 EX/MEM 流水 线 寄存 器 中 得 到 的 地 址 
读 取 数据 存储 器 ， 并 将 数据 存 人 MEM/WB 流水 线 寄存 器 中 。 

5) 写 回 : 图 4-38 的 底部 表示 了 最 后 一 个 步骤 ， 即 从 MEM/WB 流水 线 寄存 器 中 读 取 数据 并 
将 它 写 回 寄 存 器 堆 。 

对 装载 指令 整个 过 程 的 描述 表明 任何 后 面 的 流水 线 级 可 能 用 到 的 数据 必须 通过 流水 线 寄 存 
仲 传递 。 存 储 指 令 也 是 如 此 。 下 面 是 存储 指令 的 五 个 执行 步骤， 

1) 取 指 令 : 利用 PC 中 的 地 址 从 存储 器 中 读 出 指令 ， 然后 将 指令 放 和 人 IF/ID 流水 线 寄存 器 
中 。 这 个 步骤 发 生 在 指令 译 码 之 前 ， 所 以 图 4-36 中 顶端 部 分 既 适 用 于 装载 指令 也 适用 于 存储 
指令 。 


216: 第 4 章 处 理 器 


2) 指令 译 码 与 寄存 器 堆 的 读 取 : IF/ID 流水 线 寄存 器 中 的 指令 包括 用 于 读 取 寄存 器 的 两 个 
寄存 器 号 和 用 于 符号 扩展 的 16 位 立即 数 。 读 出 的 两 个 寄存 器 值 和 符号 扩展 后 的 32 位 立即 数 都 存 
放 在 ID/EX 流水 线 寄存 器 中 。 图 4-36 中 的 底部 同时 也 可 描述 装载 指令 的 第 二 个 流水 级 。 由 于 此 
时 并 不 知道 要 执行 的 指令 类 型 ， 因 此 所 有 指令 的 执行 这 两 个 步骤 都 相同 。 


Iw 
存储 器 访问 | 


子 


IF/ID MEM/WB 





IF/ID ID/EX EX/MEM MEM/WB 


PES 
腾 : 各 
EE3 
注 





图 4-38 MEM 和 WB; lw 指令 在 流水 线 中 的 第 四 步 和 第 五 步 ， 图 4-35 中 活动 的 数据 
通路 部 件 用 灰色 表示 
利用 EX/ZMRM 流水 线 寄 存 器 中 包含 的 地 址 读 取 数据 存储 器 ， 并 将 读 取 的 数据 放 人 到 MEM/WB 流水 线 寄存 
MEM“ WB 流水 线 寄存 器 中 读 取 数据 写 回 寄存 器 堆 。 请 注意 :; 这 里 有 一 个 错误 ， 将 在 后 面 的 图 4- 


3) 指令 执行 或 地 址 计算 : 图 4-39 描述 了 sw 指令 在 流水 线 中 的 第 三 步 ， 有 效 地 址 存放 在 
EX/MEM 流水 线 寄存 器 中 。 
4) 存储 器 访问 : 图 4-40 的 顶端 描述 的 是 数据 写 人 存储 器 的 过 程 。 值得 注意 的 是 ， 需 要 写 人 
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存储 器 的 数据 在 较 早 的 流水 级 中 已 经 读 出 并 存放 在 ID/EX 中 。 在 MEM 级 唯一 获得 这 个 数据 的 方 
法 就 是 把 数据 放 人 EX 步骤 中 的 EX/MEM 流水 线 寄存 器 中 ， 这 一 过 程 与 将 有 效 地 址 放 人 EX/ 
MEM 中 类 似 。 

5) 写 回 : 图 4-40 中 的 底部 描述 了 存储 指令 的 最 后 一 步 。 存 储 指令 在 写 回 步 又 中 不 做 任何 事 
情 。 由 于 存储 指令 后 的 每 一 条 指令 都 已 经 进 人 流水 线 中 ， 所 以 无 法 加 速 这 些 指令 。 因 此 ， 任 何 一 
条 指令 都 必须 经 过 流水 线 的 每 一 个 步 又 ， 即 使 在 这 个 步骤 中 它 实际 上 什么 都 没有 做 ， 这 是 因为 
后 面 的 指令 已 经 按照 最 大 的 速率 在 流水 线 中 进行 处 理 。 

















4-39 EX: sw 指令 在 流水 线 中 的 第 三 步 
与 图 4-37 中 装载 指令 的 第 三 个 流水 级 不 同 的 是 ， 第 二 个 寄存 器 中 的 数据 被 装 人 EX/MEM 流水 线 寄 存 器 中 ， 
并 被 用 于 下 个 流水 级 。 虽 然 总 是 将 第 二 个 寄存 器 中 的 数据 装 入 EX/MEM 流水 线 寄存 器 中 并 不 会 产生 什么 不 良 
影响 ， 但 为 了 使 流水 线 更 易于 理解 ， 我 们 只 在 存储 指令 中 才 写 第 二 个 寄存 器 的 内 容 。 


仓储 指令 再 次 说 明 在 流水 线 中 为 了 从 前 面 的 流水 级 向 后 面 的 流水 级 传递 信息 ， 必须 将 信息 
放 信 流水线 寄存 器 中 ， 否 则 当下 一 条 指令 进入 该 流水 级 时 这 些 信息 将 会 丢失 。 在 存储 指令 中 ， 需 
要 将 一 个 寄存 器 中 的 内 容 在 ID 级 读 出 然后 在 MEM 级 写 人 存储 器 。 这 些 数据 首先 放 在 ID/EX 流 
水 线 寄 存 器 中 ， 然 后 传送 到 EX/MEM 流水 线 寄 存 器 中 。 

装载 指令 与 存储 指令 的 执行 过 程 还 表明 了 另 一 个 重要 特性 ， 即 数据 通路 中 的 每 一 个 功能 单 
元 (如 指令 存储 器 、 寄 存 器 读 取 端口 、ALU.、 数据 存储 器 以 及 寄存 器 写 人 端口 ) 都 只 能 在 一 个 
流水 级 中 使 用 ， 否 则 就 会 产生 结构 冒险 ( 见 4.5 节 )。 所 以 这 些 功能 单元 可 以 和 一 个 流水 级 相 
联系 。 

现在 我 们 可 以 修复 图 4-38 中 装载 指令 设计 的 错误 了 。 你 发 现 这 个 错误 了 吗 ? 在 装载 指令 
执行 的 最 后 一 级 写 回 了 哪个 寄存 器 呢 ? 更 确切 地 说 ， 哪 条 指令 提供 了 写 寄存 器 号 呢 ? 在 IF/ID 
流水 线 寄存 器 中 的 指令 提供 了 写 寄存 器 号 ， 但 是 很 显然 现在 这 条 指令 已 经 是 装载 指令 之 后 的 
信人 3 

因此 ， 我 们 要 在 装载 指令 中 保存 目的 寄存 器 号 。 就 像 存 储 指令 为 了 MEM 的 需要 将 寄存 器 
的 内 容 从 ID/EX 传送 到 EX/MEM 中 一 样 ， 为 了 WB 级 使 用 的 需要 ， 装 载 指令 必须 把 寄存 器 号 
从 ID/EX 经 过 EXAMEM 传送 到 MEM/WB 中 。 从 另 一 个 角度 来 考虑 寄存 器 号 的 传递 ， 为 了 共 
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享 流水 线 的 数据 通路 ， 我 们 需要 在 IF 中 保存 读 取 的 指令 ， 因 此 每 一 个 流水 线 寄存 器 都 要 保存 
当前 和 后 续 流 水 级 所 需 的 部 分 指令 。 

4-41 给 出 了 修正 后 的 数据 通路 。 首 先 将 写 寄 存 器 号 传送 到 ID/EX 寄存 器 ， 然 后 送 到 
EX/MEM 寄存 器 ， 最 后 送 到 MEM/WB 寄存 器 。 在 WB 级 使 用 寄存 器 号 指定 了 要 写 人 的 寄存 
器 。 图 4-42 是 一 个 简单 的 数据 通路 图 ， 它 标 出 了 从 图 4-36 到 图 4-38 装载 指令 在 所 有 五 个 流 
水 级 中 要 使 用 的 硬件 。 阅 读 4. 8 节 可 以 了 解 如 何 使 分 支 指 令 按期 望 的 方式 工作 。 


SW 


子 


MEM/WB 





] SW 
写 回 


MEM/WB 





图 4-40 MEM 和 WB:， sw 指令 在 流水 线 中 的 第 四 步 和 第 五 步 
第 四 步 将 数据 写 人 数据 存储 器 中 ， 写 人 数据 来 自 于 EX/MEM 流水 线 寄存 器 。MEM/WB 流水 线 寄 存 器 


人 一 旦 数据 写 和 存储器， 存储 指令 就 没有 什么 可 做 的 了 ， 所 以 在 第 五 步 中 存储 指令 并 不 做 任何 
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MEM/WB 





图 4-41 可 正确 执行 装载 指令 的 流水 线 数据 通路 
写 寄存 器 号 与 数据 一 起 从 MEM/WB 流水 线 寄存 器 中 得 到 。 通 过 在 最 后 的 三 个 流水 线 寄存 器 上 分 别 增加 5 
位 ， 寄 存 器 号 就 能 从 ID 流水 级 一 直 传 送 到 MEM/WB 流水 线 寄存 器 。 新 的 路 径 以 灰色 线 标识 。 





4-42 图 4-41 中 在 装载 指令 的 五 级 流水 线 中 用 到 的 全 部 数据 通路 


4.6.1 图 形 化 表示 的 流水 线 


流水 线 技术 比较 难以 理解 ， 因为 在 每 一 个 时 钟 周期 内 同时 会 有 很 多 指令 在 一 个 数据 通路 
中 执行 。 为 了 帮助 理解 流水 线 ， 有 两 种 基本 的 表示 流水 线 的 图 形 化 方法 ， 即 多 时 钟 周 期 的 流 
水 线 图 ( 见 图 4-34) 和 单 时 钟 周期 的 流水 线 图 ( 见 图 4-36 ~ 图 4-40)。 多 时 钟 周期 虽然 简单 
但 不 包括 所 有 的 细节 。 下 面 以 这 五 条 指令 构成 的 指令 序列 为 例 进 行 说 明 ， 

1w $10,20 ( $1) 

Sub $11, $2, $3 

add $12, $3, $4 


lw $13,24 {$1) 
add $14, $5, $6 
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图 4-43 表示 的 是 该 指令 序列 的 多 时 钟 周期 流水 线 图 。 与 图 4-25 中 洗衣 店 流水 线 的 表示 方 
法 类 似 ， 时 间 从 左 到 右前 进 ， 指 令 从 上 到 下 前 进 。 沿 着 指令 轴 分 别 表 示 各 流水 级 以 及 所 占据 
的 时 钟 周期 。 这 些 程式 化 的 数据 通路 用 图 形 的 方式 展示 了 流水 线 的 5 个 级 别 ， 但 用 方 框 来 命 
名 每 个 流水 线 等 级 也 是 很 好 的 表示 方法 。 图 4-44 给 出 了 一 个 更 加 传统 的 多 时 钟 周期 流水 线 图 
的 表示 方法 。 需 要 注意 的 是 ， 图 4-43 中 描述 的 是 每 个 步 又 中 使 用 的 物理 资源 ， 而 图 4-44 描述 
的 是 每 个 步骤 的 名 称 。 

单 时 钟 周期 流水 线 图 表示 的 是 在 一 个 时 钟 周 期 内 整个 数据 通路 的 状态 ,通常 所 有 五 个 
流水 级 中 的 指令 都 在 各 流水 级 上 做 相应 的 标志 。 这 种 流水 线 图 描述 了 在 每 一 个 时 钟 周期 内 
流水 线 中 所 发 生 事件 的 细节 。 通 和 常 ， 可 使 用 一 组 单 时 钟 周期 流水 线 图 来 表示 在 一 系列 时 钟 
周期 内 的 流水 线 操作 ， 而 使 用 多 时 钟 周 期 流水 线 图 对 流水 线 总 体 进行 全 局 描述 。( 如 果 你 对 
图 4-43 的 细节 感 兴趣 ， 可 参考 4. 12 节 中 对 单 时 钟 周期 图 的 描述 )。 从 多 时 钟 周期 图 中 抽出 
一 个 时 钟 周期 就 表示 了 单 时 钟 周期 图 流水 线 的 状态 ， 其 中 显示 了 流水 线 中 每 条 指令 对 数 
据 通路 的 使 用 。 例 如 ， 图 4-45 的 单 时 钟 周 期 图 对 应 的 就 是 图 4-43 和 图 4-44 的 第 五 个 时 
钟 周期 。 很 明显 ， 单 时 钟 周期 图 可 以 表现 更 多 的 细节 ， 但 表示 同样 多 时 钟 周期 时 所 占 空 
间 要 比 多 时 钟 周期 图 大 得 多 。 本 章 后 面 的 练习 会 要 求 你 根据 其 他 的 指令 序列 画 出 对 应 的 
流水 线 图 。 


时 间 〈 按 时钟 周期 ) 
CC 1 CE CC 4 CE CC6 CE Ce EY9 





程序 
执行 
顺序 


( 按 指令 ) 
lw $10, 20($1) 本 | 坷 二 六 可 | Reg| 


sub $11, $2, $3 


aGd $12, $3, $4 


lw $13, 24 ($1) 





aGd $14, $5, $6 





图 4-43 五 条 指令 的 多 时 钟 周期 流水 线 图 
此 种 流水 线 图 在 一 幅 图 中 表示 了 指令 序列 的 完整 执行 过 程 。 指 令 从 上 到 下 按照 执行 的 顺序 被 排列 ， 时 钟 
周期 从 左 向 右前 进 。 与 图 4-28 流水 线 表示 方法 不 同 的 是 ， 本 图 给 出 了 每 一 级 的 流水 线 寄存 嚣 。 图 4-44 给 
出 了 这 种 图 更 为 传统 的 表示 方法 。 
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时 间 〈 按 时 钟 周期 ) 
CC 1 CC 2 CC 3 CC4 CC 5 CC6 CC 7 CC8 CC9 
程序 
执行 
顺序 
( 按 指令 ) 





lw $10,20 ($1)} 


取 指 | 指令 译 码 | 执行 | 数据 存 取 各 耻 
gb $11, $2, $3 ERS 指令 译 码 数据 存 取 
指令 译 码 数据 存 取 
指令 译 码 | 执行 


图 4-44 ”相对 图 4-43 更 为 传统 的 多 时 钟 周期 流水 线 图 









aida $12, $3, $4 


lw $13, 24($1) 





adq $14, $5, $6 
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存储 器 访问 


WEN WE 








图 4-45 对 应 图 4-43 和 图 4-44 的 流水 线 第 5 个 时 钟 周期 的 单 时 钟 周期 流水 线 图 
从 图 中 可 以 看 出 ， 单 时 钟 周 期 图 就 是 从 多 时 钟 周 期 图 中 抽出 的 一 列 。 





人 
略 冒 险 的 情况 下 ， 他 们 作出 了 以 下 几 个 断言 ， 其 中 哪 一 个 是 正确 的 ? 

A. 允许 跳 转 、 分 支 、ALU 指令 使 用 比 5 级 (装载 指令 需要 的 级 数 ) 更 少 的 级 数 将 在 所 有 情况 下 增加 
流水 线 的 性 能 。 

B 允许 一 些 指令 使 用 更 少 的 级 数 并 不 能 提高 性 能 ， 站 为 硅 吐 率 是 由 时 钟 周期 决定 的 。 每 条 指令 所 需 的 
流水 线 级 数 仅 影响 它 的 延迟 时 间 ， 而 不 影响 吞吐 率 。 

C. 不 可 能 减少 ALU 指令 所 需 的 时 钟 周 期 数 ， 因为 它们 需要 写 回 结果 。 不 过 分 支 和 跳 转 指令 是 可 以 减 
少时 钟 周期 数 的 ， 因 此 存在 改善 性 能 的 机 会 。 

D. 相对 于 尝试 减少 指令 所 需 的 时 钟 周 期 数 ， 我 们 可 以 延长 流水 线 的 级 数 ， 虽然 每 条 指令 花费 更 多 的 时 
钟 周期 数 ， 但 时 钟 周期 的 长 度 变 短 了 ， 这 样 才能 提高 性 能 。 
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4. 6.2 流水 线 控制 


相对 以 前 的 任何 计算 机 ，6600 型 计算 机 的 控制 系统 是 大 不 相同 的 。 
James Thornton, 《Design of a Computer: The Control Data 6600》，1970 

4.3 节 介 绍 了 在 简单 数据 通路 加 入 控制 的 方法 ， 下 面 我 们 将 介绍 在 采用 流水 线 的 数据 通路 中 
如 何 加 入 控制 。 首 先 我 们 在 带 有 诸多 限制 条 件 下 通过 一 个 简单 设计 方案 了 解 流 水 线 控制 ， 然 后 
在 4.7 节 ~4.9 市 中 逐步 去 掉 这 些 限制 条 件 。 

我 们 首先 要 做 的 工作 就 是 标识 已 有 数据 通路 上 的 控制 信号 ， 如 图 4-46 所 示 。 我 们 尽量 借用 
图 4-17 中 简单 数据 通路 的 控制 方法 ， 特别 是 使 用 相同 的 ALU 控制 逻辑 、 分 支 逻 辑 、 目 的 寄存 器 
号 多 选 做 和 控制 信号 。 尽 管 图 4-12、 图 4-16 以 及 图 4-18 中 已 给 出 了 这 些 功能 单元 的 定义 ， 为 了 
使 下 面 的 内 容 更 易于 理解 ， 图 4-47 ~ 图 4-49 重新 对 其 进行 了 解释 。 
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4-46 ”在 图 4-41 上 增加 了 控制 信和 号 的 流水 线 数据 通路 
这 个 数据 道路 采用 了 与 4.4 节 中 相同 的 PC 源 控制 锰 辑 、 寄 存 器 目标 号 和 ALU 控制 。 需 要 注意 的 是 ， 这 
时 在 EX 流水 级 中 指令 需要 一 个 6 位 的 功能 字段 〈 功 能 码 ) 作为 ALU 控制 的 输入 ， 所 以 该 6 位 字段 必须 存 
放 在 ID/EX 流水 线 寄存 器 中 。 而 该 6 位 字段 是 指令 中 立即 数 的 低 6 位 ， 由 于 在 对 立即 数 进行 符号 扩展 时 低 
6 位 没有 发 生变 化 ， 所 以 





图 4-47 图 4-12 的 副本 9 
本 图 描述 了 如 何 根据 ALUOp 控制 位 和 不 同 R 型 指令 的 功能 码 设置 ALU 控制 信号 的 值 。 


名 ”需要 保持 副本 与 正本 完全 相同 。 一 译 者 注 
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” 置 有 效 时 的 效果 (1) 


| RegDst 写 和 寄存 器 的 目标 号 来 自 rd 字段 (15:11 位 ) 
本 入 寄存 加 的 尖 寄 存 器 设 管 为 输入 的 写 人 数 所 


第 二 个 ALU 操作 数 来 自 第 二 个 寄存 器 堆 的 第 一 个 ALU 操作 数 是 指令 低 16 位 的 符号 扩展 


4-48 4-16 的 副本 
图 中 定义 了 七 个 控制 信号 的 功能 。ALUOp 已 经 在 图 4-47 的 第 二 列 中 定义 。 当 一 个 二 路 多 选 器 的 控制 位 有 
效 时 ， 多 选 器 选择 1 对 应 输入 ; 和 否则， 如果 控制 位 无 效 ， 多 选 器 选择 0 对 应 输入 。 注 意 PCSre 是 由 图 4-46 的 
一 个 与 门 控制 的 。 如 果 分 支 信 号 与 ALU 的 零 信 号 都 有 效 ， 则 PCSre 为 1， 和 否则 为 0。 控 制 单元 仅 在 bedq 指令 










与 单 时 钟 周期 实现 方法 一 样 ， 我 们 假定 在 每 个 时 钟 周期 内 都 会 写 PC， 因 此 就 不 需要 单独 的 
PC 写 信号 。 同 理 ， 流 水 线 寄 存 器 (IF/ID、ID/EX、EX/MEM 和 MEMAWB) 也 不 需要 单独 的 写 
信号 ， 因 为 在 每 个 周期 它们 也 会 写 人 一 次 。 

为 了 详细 说 明 流水 线 的 控制 问题 ， 我 们 只 需要 在 每 一 个 流水 级 中 都 设置 相应 的 控制 信号 。 
由 于 每 一 个 控制 信号 只 与 某 个 流水 级 中 的 某 个 功能 单元 相关 ， 因 此 我 们 可 以 根据 流水 线 的 五 级 
将 控制 信号 分 成 五 组 : 

1) 取 指 令 ; 读 指 令 存储 器 和 写 PC 的 控制 信号 总 是 有 效 的 ， 因 此 在 取 指 阶段 没有 特别 需要 
控制 的 内 容 。 

2) 指令 译 码 / 寄 存 器 堆 读 : 与 第 一 步 类 似 ， 在 每 个 时 钟 周期 内 本 阶段 所 做 的 工作 都 是 完全 
相同 的 ， 因 此 不 需要 设置 控制 信和 号 。 

3) 指令 执行 /地 址 计算 : 控制 信号 有 RegDst 、 ALUOp 和 ALUSre ( 见 图 4-47 和 图 4-48)。 根 
据 这 些 信号 选择 结果 寄存 器 、ALU 操作 ， 并 为 ALU 读 取 数据 2 或 符号 扩展 后 的 立即 数 。 

4) 形 储 器 访问 : 这 一 步 的 控制 信号 有 Branch 、MemRead 和 MemWrite。 这 些 控制 信号 分 别 由 
相 学 则 分 支 、 装 载 指 令 和 存储 指令 设置 。 除 非 控制 电路 断言 是 一 条 分 支 指令 并 且 ALU 结果 为 0， 
人 否则 将 选择 线性 地 址 中 的 下 一 条 指令 作为 图 4. 48 中 的 PCSre 信和 号 。 

3) 号 回 : 控制 信号 有 MemtoReg 和 RegWrite， 其 中 前 者 决定 是 将 ALU 结果 还 是 将 存储 器 数 
据 传送 到 寄存 器 堆 ， 后 者 决定 是 否 写 人 寄存 器 堆 。 

外 于 采用 流水 线 方式 的 数据 通路 并 不 改变 控制 信号 的 意义 ， 因 此 可 以 使 用 与 简单 数据 通路 相同 
的 控制 信号 。 图 4-49 就 与 4 4 节 具 有 相同 的 控制 信号 ， 只 是 这 9 个 控制 信号 按 流水 级 进行 了 分 组 ， 

实现 控制 就 是 为 每 一 条 指令 的 每 一 个 步 又 中 的 9 个 控制 信号 设置 合适 的 值 ， 其 最 简单 的 实现 
方法 就 是 扩展 流水 线 寄存 器 使 之 包含 这 些 控制 信和 号。 

由 于 控制 从 EX 级 开始 ， 因 此 可 以 在 指令 译 码 阶段 创建 控制 信号 。 图 4-50 描述 了 当 指 令 在 流 
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水 线 中 传递 时 控制 信号 的 使 用 方法 ， 这 一 点 与 图 4-41 中 执行 装载 指令 时 目的 寄存 器 号 在 流水 线 
中 的 传递 过 程 类 似 。 图 4-51 描述 了 带 有 扩展 流水 线 寄存 器 且 将 控制 信号 连接 到 相应 流水 级 的 完 
整数 据 通路 。( 如果 你 想 知道 更 多 的 细节 ，4. 12 节 给 出 了 更 多 MIPS 代码 在 流水 线 硬件 中 执行 的 
单 时 钟 周 期 流水 线 图 。) 





WB 
入 人 MB 
Ex "we 
1F/ID ID/EX . EX/MEM MEM/WB 


4-50 流水 线 最 后 三 级 的 控制 信号 
需要 注意 的 是 ，9 个 控制 信号 中 有 4 个 用 于 EX 级 ， 而 剩 下 的 5 个 控制 信号 被 传递 到 扩展 的 保存 控制 信号 


的 EX/MEM 流水 线 寄存 器 中 ; 传递 来 的 5 个 控制 信号 中 有 3 个 用 于 MEM 级 ， 剩 下 的 2 个 传递 到 MEM/WB 
并 用 于 WB 级 。 
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图 4-51 图 4-46 中 的 流水 线 数据 通路 ， 已 将 控制 信号 连接 到 流水 线 寄存 器 的 控制 部 分 
流水 线 最 后 三 级 的 控制 信号 是 在 指令 译 码 阶段 创建 的 ， 随后 放 入 ID/EX 流水 线 寄存 器 。 每 个 流水 级 使 用 相 
应 的 控制 信和 号 ， 并 将 蒋 余 的 控制 信号 传递 到 下 个 流水 级 。 
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4.7 数据 冒险 : 转发 与 阻塞 
这 是 什么 意思 ， 为 什么 要 构建 它 ? 这 是 旁 路 ， 你 必须 构建 旁 路 。 
Douglas Adams, 《The Hitchhiker’ s Guide to the Galaxy》, 1979 
上 节 的 例子 介绍 了 流水 线 的 强大 功能 以 及 硬件 如 何以 流水 线 的 方式 执行 任务 。 本 节 我 们 如 
开 这 些 光 环 看 看 流水 线 在 实际 程序 中 的 情况 。 图 4-43 ~ 图 4-45 中 的 各 指令 之 间 是 相互 独立 的 ， 
其 中 任何 一 条 指令 都 没有 用 到 任何 其 他 指令 的 计算 结果 。 然 而 ,在 4.5 节 中 我 们 就 已 经 发 现 数据 
崩 险 是 影响 流水 线 执行 的 主要 障碍 之 一 。 
让 我 们 分 析 下 面 这 个 带 有 许多 相关 性 的 指令 序列 《依赖 关系 以 粗 体 标 出 ): 





sub $2, $1, $3 #Register $2 written by sub 

and $12, $2, $5 机 st operand ( $2) depends on sub 
or $13, $6, $2 #2nd operand ( $2) depends on sub 
add $14, $2, $2 #1 st($2) & 2nd ($2) depend on sub 
Sw $15,100 ($2) #Base ($2) depends on sub 


后 四 条 指令 都 依赖 于 第 一 条 指令 得 到 的 寄存 器 $2 的 结果 。 如 果 寄 存 器 $2 在 sub 指令 执行 
之 前 的 值 为 10， 而 在 sub 指令 执行 之 后 的 值 为 -20， 程 序 员 认 为 后 四 条 指令 访问 到 的 寄存 器 $2 
的 值 为 -20。 

这 个 指令 序列 在 流水 线 中 是 如 何 执行 的 呢 ? 图 4-52 用 多 时 钟 周期 流水 线 图 进行 了 表示 。 为 
了 在 当前 流水 线 中 表示 这 个 指令 序列 的 执行 过 程 ， 图 4-52 的 顶部 给 出 了 寄存 器 $2 中 的 值 ， 可 以 


看 出 寄存 器 $2 的 值 在 第 5 个 时 钟 周期 的 中 间 发 生 改 变 ， 也 就 是 sub 指令 写 结果 的 时 候 。 
时 间 (按时 钟 周期 ) 
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图 4-52 使 用 多 时 钟 周期 流水 线 图 表示 流水 线 中 指令 序列 的 相关 性 
所 有 的 相关 都 用 灰色 标记 出 来 ， 顶 部 的 “CC 1” 表 示 第 1 个 时 钟 周 期 。 指 令 序列 中 第 一 条 指令 写 寄存 器 
$2 ， 后 四 条 指令 读 寄存 器 $82。 寄存 器 $2 在 第 5 个 时 钟 周期 被 写 人 ， 所 以 在 此 之 前 它 的 值 都 是 无 效 的 。 当 
这 样 的 写 操作 发 生 时 ， 一 个 时 钟 周期 中 存 器 的 读 操作 返回 该 周期 前 半 段 写 人 的 值 。 数据 相关 性 用 数据 通路 中 
从 项 部 到 底部 的 线 表 示 。 那些 导致 时 间 后 退 的 依赖 就 是 流水 线 数据 冒险 。 
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最 后 一 个 潜在 的 数据 冒险 可 以 通过 设计 相应 的 寄存 器 堆 硬 件 解决 。 如 果 一 个 寄存 器 在 同一 
时 钟 周期 内 同时 读 和 写 时 会 发 生 什 么 呢 ? 这 里 我 们 假设 写 寄存 器 操作 发 生 在 时 钟 周 期 的 前 半 段 
而 读 寄存 器 操作 发 生 在 时 钟 周 期 的 后 半 段 ， 因 此 读 操 作 将 读 取 到 最 新 写 人 的 内 容 。 大 多 数 寄存 
器 堆 的 实现 方法 与 我 们 的 假设 是 一 致 的 ， 而 且 在 这 种 假设 条 件 下 不 会 发 生 数据 冒险 。 

图 4-52 表明 如 果 在 第 5 个 时 钟 周期 之 前 读 寄存 器 $2 ， 读 操作 得 到 的 寄存 器 值 就 不 会 是 
sub2 指令 的 结果 。 因 此 ， 指 令 add 和 sw 可 得 到 正确 结果 -20， 而 指令 AND 和 oR 将 得 到 错误 结 
果 10。 使 用 这 种 风格 的 流水 线 图 ， 当 一 条 依赖 关系 的 方向 与 时 间 轴 相反 时 ,该 问题 就 变 得 很 
明显 。 

正如 4.5 节 所 提 到 的 那样 ，sub 指令 在 EX 级 (第 3 个 时 钟 周 期 ) 的 末尾 就 可 以 得 到 需要 的 
结果 。 那 么 AND 指令 和 OR 指令 什么 时 候 真 正 需要 该 数据 呢 ? 应 该 是 在 AND 指令 和 oR 指令 的 EX 
级 开始 前 ， 分 别 是 第 4 个 和 第 5 个 时 钟 周期 。 所 以 只 要 我 们 在 刚 得 到 数据 时 就 将 其 转发 给 所 需 的 
单元 而 不 是 等 待 其 可 以 从 寄存 器 堆 中 读 出 来 ， 就 可 以 无 阻塞 地 执行 这 两 条 指令 了 。 

转发 到 底 是 怎样 工作 的 呢 ? 在 本 节 下 面 的 部 分 ， 为 了 简化 讨论 ， 我 们 仅 考 虑 如 何 直 接 传送 
EX 段 产 生 的 数据 ， 该 数据 可 能 是 ALU 运算 的 结果 ， 也 可 能 是 地 址 计算 的 结果 。 这 意味 着 如 果 一 
条 指令 试图 在 EX 级 使 用 前 面 一 条 指令 在 WB 级 才 写 人 寄存 器 堆 的 数据 时 ， 我 们 需要 提前 将 数据 
送 到 ALU 的 输入 端 。 

一 种 更 精确 的 表示 相关 性 的 方法 是 使 用 流水 线 寄 存 器 字段 。 例 如 , “ID/EX.RegisterRs” 表示 一- 
个 需要 流水 线 寄存 器 ID/EX 获得 的 源 寄存 器 号 。 这 个 名 称 的 第 一 部 分 ， 即 点 号 的 左边 ， 表 示 流 水 线 
寄存 器 的 名 称 ; 第 二 部 分 表示 寄存 器 中 字段 的 名 称 。 使 用 这 种 表示 方法 ，4 个 冒险 条 件 分 别 是 ; 

la.EX/MEM. RegisterRd = ID/EX. RegisterRs 

1b.EX/MEM. RegisterRd = ID/EX. RegisterRt 

2a. MEM/WB.RegisterRd = ID/EX. RegisterRs 

2b. MEM/WB. RegisterRd = ID/EX. RegisterRt 

本 节 开 始 给 出 的 指令 序列 的 第 一 个 冒险 发 生 在 sub $2, $1, $3 的 结果 和 anq $12, $2, $5 
的 第 一 个 读 操 作 数 之 间 。 这 个 冒险 在 and 指令 处 于 EX 级 而 sub 指令 处 于 MEM 级 时 就 能 检测 出 
来 ， 这 就 是 骨 险 1a: EX/MEM.RegisterRd = ID/EX.RegisterRs = $2。 
相关 性 检测 

将 前 面 指令 序列 中 的 相关 性 进行 分 类 : 


sub $2, $1 , $3 #Register $2 set by sub 

and $12, $2, $5 #1st operand ( $2) set by sub 
OF $13, $6, $2 #2nd operand ($2) set by sub 
add $14, $2, $2 #1st ($2) & 2nd{ $2) set by sub 
SW $15,100 ( $2 ) #Index ( $2) set by sub 


如 上 所 述 ，sub-and 是 一 个 1a 类 冒险 。 其 余 的 冒险 分 别 是 : 

e sub-or 是 一 个 2b 类 置 险 ， 
MEM/WB. RegisterRd = ID/EX. RegisterRt = $2 

。 sub-add 上 的 两 个 相关 性 都 不 是 冒险 ， 因 为 在 add 的 ID 级 寄存 器 堆 已 能 提供 相应 的 
数据 。 

。 Sub 指令 和 sw 指令 之 间 也 不 存在 数据 冒险 ， 因 为 sw 指令 在 sub 指令 写 寄 存 器 $2 后 才 
读 取 $2。 

但 是 ， 直接 采用 总 是 转发 的 方式 解决 冒险 是 不 正确 的 ， 因为 某 些 指令 可 能 不 写 回 寄存 器 ， 就 
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会 产生 一 些 不 必要 的 转发 。 一 种 简单 的 解决 方法 是 检测 RegWrite 信号 是 否 是 活动 的 ， 即 通过 检 
浏 流水 线 寄存 器 在 EX 和 MEM 级 的 WB 控制 字段 以 确定 RegWrite 是 否 被 设置 。 而 且 ，MIPS 要 求 
$0 始终 为 0， 这 就 需要 在 目标 寄存 器 是 $0 的 情况 下 (如 sll $0,$1,2)， 必 须 避 免 把 $0 按 非 
零 结 果 转 发 ， 从 而 使 得 汇编 程序 员 和 编译 器 不 必 考 虑 $0 作为 目标 寄存 器 的 情况 。 因 此 ， 需 要 在 
第 一 类 冒险 条 件 中 加 入 附加 条 件 EX/MEM.RegisterRd 关 0， 在 第 二 类 冒险 条 件 中 加 入 附加 条 件 
MEM/WB.RegisterRd #0。 
至 此 ， 我 们 介绍 了 检测 冒险 的 方法 ， 问 题 已 经 解决 了 一 半 ， 但 仍然 需要 解决 转发 数据 策略 的 问题 。 
图 4-53 描述 了 图 4-52 的 指令 序列 中 流水 线 寄 存 器 和 ALU 输入 间 的 相关 性 。 与 图 4-52 不 同 
的 是 ， 这 里 的 相关 性 开始 于 一 个 流水 线 寄 存 器 而 不 是 等 待 WB 级 写 操作 的 寄存 器 推 。 由 于 流水 线 
寄存 器 保存 了 需要 转发 的 数据 ， 因 此 后 面 的 指令 能 够 获得 相应 的 数据 。 
时 间 〔〈 按 时 钟 周期 ) 





CC 1 [CEI ei CC4 次 CC6 Ce CC 8 CE 
寄存 器 $2 的 值 : 10 10 10 10 10/-20 -20 <20 a -20 
EX/MEM 的 值 : X 这 = X X 次 X w 
MEM/WB 的 值 : x X 这 x -2 X X X X 
程序 
执行 
顺序 


sub$2, $1, $3 


or $13, $6, $2 


add $14, $2,$2 


sw $15, 100 ($2) 





图 4-53 流水 线 寄存 器 和 ALU 间 的 相关 性 。 通 过 转发 流水 线 寄存 器 中 保存 的 结果 就 有 可 能 提供 
AND 指令 和 OR 指令 所 需 的 ALU 输入 
流水 线 寄存 器 存 有 相应 的 值 ， 在 数据 写 人 寄存 器 堆 之 前 就 已 经 有 效 了 。 如 果 寄 存 器 堆 可 在 同一 时 钟 周期 内 转发 要 

读 写 的 数据 ，add 指令 就 不 用 阻塞 了 。 这 种 寄存 器 堆 的 转发 的 值 不 是 来 自 于 流水 线 寄存 器 而 是 来 自 寄存 器 堆 。 它 使 

得 寄存 器 $2 中 的 值 在 第 五 个 时 钟 周 期 的 开始 是 10， 而 在 周期 结束 时 是 -20， 即 在 这 一 时 钟 周期 里 读 操作 读 到 的 值 

是 写 操作 写 人 的 值 。 在 本 节 下 面 的 部 分 ， 我 们 将 处 理 所 有 的 转发 (除了 存储 指令 要 存 的 数值 之 外 )。 

如 果 可 以 从 任何 流水 线 寄存 器 而 不 仅仅 从 ID/EX 中 得 到 ALU 的 输入 ， 那 么 就 可 以 转发 所 需 
的 数据 。 通 过 在 ALU 的 输入 中 加 入 多 选 器 和 正确 的 控制 策略 ， 就 可 以 在 存在 相关 性 的 情况 下 仍 
然 能 够 全 速 运行 流水 线 。 

现在 ,假设 需要 转发 的 指令 只 有 四 个 R 型 指令 ; add、sub、AND 和 OR。 图 4-54 给 出 了 在 加 
入 转发 机 制 前 后 ALU 和 流水 线 寄存 器 的 示意 图 。 图 4-55 给 出 了 在 寄存 器 推 值 和 某 一 转发 的 数值 
间 进 行 选择 的 ALU 多 选 器 控制 信号 的 值 。 
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EX/MEM MEM/WB 





ID/EX EX/MEM MEM/WB 


X/MEM. ee 上 


MEM/WB. Reg es 





b) 转发 


4-54 ”加 入 转发 机 制 前 后 的 ALU 和 流水 线 寄存 器 
下 图 使 用 多 选 器 增加 了 转发 路 径 ， 并 标识 了 转发 单元 。 本 图 只 是 一 个 示意 图 ， 没 有 标识 诸如 符号 扩展 硬件 
之 类 的 细节 。 需 要 注意 的 是 ， 尽 管 ID/EX.RegisterRt 字段 在 图 中 标识 了 两 次 ， 一 根 连接 到 多 选 器 ， 一 根 连接 
到 转发 单元 ， 但 实际 上 它 是 一 个 信号 。 如 前 所 述 ， 这 里 还 忽略 了 转发 存储 指令 中 数据 的 情况 。 还 有 一 点 要 注 


意 的 是 ， 这 一 机 制 也 适用 于 slit 指令 。 






ET ES ge 


Ra 


ForwardB = 10 第 二 个 ALU 操作 数 由 上 一 个 ALU 运算 结果 转发 获得 


和 二 个 ALD 扩 人 到 所 存 人 或 而 的 A 结 让 和 


4-55 4-54 中 转发 多 选 器 的 控制 信号 
作为 ALU 另 一 个 输入 的 带 符 号 立即 数 将 在 本 节 的 “ 精 解 ” 部 分 中 解释 。 
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因为 ALU 转发 多 选 器 在 EX 中 ， 所 以 转发 控制 也 在 这 一 级 中 完成 。 因 此 ， 我 们 必须 通过 ID/ 
EX 流水 线 寄存 器 从 ID 级 中 获得 操作 数 寄存 器 号 ， 以 决定 是 否 转发 相应 的 值 。 我 们 已 经 有 了 rr 字 
段 (20 ~16 位 )。 在 支持 转发 前 ，ID/AEX 流水 线 寄 存 器 未 保存 rs 字段 。 因 此 ， 为 支持 转发 ，rs 
(25 ~21 位 ) 被 加 入 ID/EX 流水 线 寄存 器 中 。 

下 面 将 给 出 检测 冒险 的 条 件 以 及 解决 冒险 的 控制 信号 : 

1) EX 冒险 : 

if(EX/MEM.RegWrite 

and(EX/MEM,.ReygisterRdz0) 


and( EX/MEM.RegisterRd = ID/EX.RegisterRs)) 
ForwardA=10 


if(EX/MEM.RegWrite 

and( EX/MEM .RegisterRdz0) 

and( EX/MEM.RegisterRd = ID/EX.RegisterRt)) 

ForwardB =10 

注意 ，EX/MEM.RegisterRd 域 是 ALU 指令 (来自 Rd 域 ) 或 装载 指令 (来自 Rt 域 ; 的 目标 
寄存 句号 。 

这 种 情况 是 将 前 一 条 指令 的 结果 转发 到 任何 一 个 ALU 输入 中 。 如 果 前 一 条 指令 要 写 寄存 器 
堆 且 要 写 的 寄存 器 号 与 ALU 输入 要 读 的 寄存 器 号 (A 或 B) 一 致 (只 要 不 是 寄存 器 0)， 那么 就 
调整 多 选 器 从 流水 线 寄存 器 EX/MEM 中 读 取 数值 。 

2) MEM 骨 险 . 

if(MEM/WB .RegWrite 

and( MEM/WB .RegisterRdz0) 


and( MEM/WB .RegisterRd = ID/EX.RegisterRs)) 
ForwardA =01 


if(MEM/WB .RegWrite 

and( MEM/WB .RegisterRdz0) 

and( MEM/WB .RegisterRd = ID/EX . RegisterRt)) 

ForwardB =01 

如 上 所 述 ， 在 WB 级 不 会 发 生 冒 险 ， 这 是 因为 我 们 假设 在 了 D 级 指令 读 取 的 寄存 器 与 WB 级 
指令 写 人 的 寄存 器 是 同一 寄存 器 时 ， 就 由 寄存 器 堆 提供 正确 的 结果 。 这 样 ， 寄存 器 堆 实 现 了 另 一 
种 形式 的 转发 ,但 这 种 转发 只 发 生 在 寄存 器 堆 内 部 。 

更 为 复杂 的 潜在 数据 冒险 发 生 在 WB 级 的 指令 结果 、MEM 级 的 指令 结果 和 ALU 级 的 指令 源 
操作 数 之 间 。 例 如 ， 在 一 个 寄存 器 中 对 多 个 数字 进行 求 和 运算 时 ， 一 条 列 连续 的 指令 将 会 读 写 到 
同一 寄存 器 : 

add $1, $1, $2 


add $1 ,$1 ,$3 
add $1, $1, $4 


在 这 种 情况 下 ， 由 于 MEM 级 的 结果 是 最 新 的 ， 因 而 结果 是 由 MEM 级 转发 得 到 。 这 样 ， 对 
MEM 冒险 的 控制 策略 为 (额外 加 入 的 条 件 采用 粗 体 表示 ) . 
It (MEM/WBR .RegWrite 


and( MEM/WB .RegisterRdz0) 
and not (EX/MEM. RegWrite and( EX/MEM .RegisterRdz0 ) 
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and( EX/MEM .RegisterRdz LD/EX .RegisterRs) 
and(MEM/WB .RegisterRd = ID/EX.RegisterRs))ForwardA=01 


if(MEM/WB .RegWrite 

and(MEM/WB .RegisterRdz0) 

and not (EX/MEM .RegWrite and(EX/MEM.RegisterRd0) 
and( EX/MEM .RegisterRdz ID/EX .RegisterRt) 

and{( MEM/WB .RegisterRd = ID/EX.RegisterRt))ForwardB =01 


图 4-56 给 出 了 为 了 文 持 转 发 EX 级 结果 所 增加 的 必要 硬件 设备 。 注 意 ， 图 中 EX/ 
MEM.RegisterRd 域 是 一 条 ALU 指令 (来 自 Rd 域 ) 或 装载 指令 (来 自 Rt 域 ) 的 目标 寄存 器 。 


ID/EX 
控制 ee 二 ”M se 一 "WB TT MEM/WB 
IF/ID 
指令 
PC 






ETIDRegisterRt 
| | IF/ID .RepisterRt | 
| | |IF/DRegisterRd 





4-56 通过 转发 解决 冒险 的 数据 通路 
与 图 4-51 的 数据 通路 相 比 ， 本 图 在 ALU 的 输入 部 分 加 入 了 多 选 器 。 为 了 使 表述 更 加 清楚 ， 图 中 忽略 了 完 
整数 据 通路 中 的 一 些 细节 ， 如 分 支 硬件 和 符号 扩展 硬件 等 。 


在 CD 中 的 4. 12 节 给 出 了 两 段 MIPS 代码 ， 其 中 存在 需要 使 用 转发 解决 的 冒险 ， 你 可 以 使 用 
单 时 钟 周期 流水 线 图 对 这 些 例 子 进 行 深入 分 析 。 

精 解 : 转发 还 可 以 帮助 解决 因 存储 指令 依赖 其 他 指令 而 导致 的 冒险 。 由 于 存储 指令 在 MEM 级 只 使 用 
一 个 数据 ， 所 以 转发 应 当 容 易 。 但 在 MIPS 架构 中 ， 由 于 存储 器 之 间 的 复制 很 频繁 ， 必 须 考虑 复制 时 存储 
指令 后 紧 跟 着 的 是 装载 指令 的 情况 。 为 了 提高 复制 的 速度 ， 我 们 需要 加 人 更 多 的 转发 硬件 。 如 果 我 们 重 画 
图 4-53， 并 分 别 使 用 1w 和 sw 指令 代替 sub 和 AND 指令 ， 我 们 将 发 现 这 时 也 可 能 避免 一 次 阻塞 ， 只 
要 装载 指令 的 MEM/WB 寄存 器 中 存在 的 数据 能 够 及 时 地 提供 给 存储 指令 在 MEM 级 使 用 。 为 了 实现 
这 个 功能 ， 我 们 需要 在 存储 器 访问 阶段 加 入 转发 。 我 们 将 如 何 对 其 修改 作为 练习 题 留 给 读者 。 

此 外 ， 图 4-56 中 省 略 了 装载 指令 和 存储 指令 所 需 的 输入 到 ALU 的 带 符 号 立即 数 。 由 于 中 央 
控制 决定 如 何在 寄存 器 和 立即 数 之 间 进 行 选择 ， 而 且 转 发 单元 选择 流水 线 寄存 器 作为 ALU 的 一 
个 寄存 器 输入 ， 因 此 最 简单 的 解决 方法 就 是 加 入 一 个 2: 1 的 多 选 器 ， 由 它 在 ForwardB 多 选 器 的 
输出 和 带 符 号 立即 数 之 间 进 行 选择 。 图 4-57 描述 了 这 种 变化 。 
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图 4-57 在 图 4-54 中 的 数据 通路 加 入 了 一 个 2:1 的 多 选 器 ， 用 以 选择 带 符号 立即 数 作 为 ALU 的 输入 


数据 置 险 与 阻塞 


如 果 你 第 一 次 没有 成 功 ， 那 就 重新 定义 成 功 是 什么 。 
一 一 佚名 
如 4.5 节 所 述 ， 当 一 条 指令 试图 读 取 一 个 由 前 一 条 装载 指令 读 人 的 寄存 髓 时 ， 就 无 法 使 用 转 
发 解决 冒险 了 。 图 4-58 说 明了 这 个 问题 。 当 ALU 正在 执行 后 续 指 令 的 操作 时 ， 数 据 仍 然 是 在 第 
程序 。 ” 时 间 〈 按 时 钟 周期 ) 


执行 | GE CC 3 CC 4 CC CC 6 CE7 CC 8 CC 9 


lw$2, 20 ($1) 





or $8, $2, $6 


add $9, $4,$2 


lt Dl B6: $7 





图 4-58 一 个 指令 序列 的 多 时 钟 周 期 流水 线 图 
由 于 装载 指令 和 紧 随 其 后 的 and 指令 之 间 的 相关 性 在 时 间 上 是 回 漳 的 ， 这 种 冒险 不 可 能 通过 转发 来 解决 。 
因此 ， 这 类 指令 组 合 导致 冒险 检测 单元 产生 阻塞 。 
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四 个 时 钟 周 期 从 内 存 中 读 出 的 。 所 以 ， 当 装载 指令 后 紧 跟 着 一 个 需要 读 取 它 的 结果 的 指令 时 ， 必 
须 采 用 相应 的 机 制 阻塞 流水 线 。 

因此 ， 除 了 一 个 转发 单元 以 外 ， 还 需要 一 个 冒险 检测 单元 。 它 工作 在 四 级 ， 从 而 可 以 在 装 
载 指 令 与 紧 随 其 后 需要 它 的 结果 的 指令 间 插 入 阻塞 。 这 个 冒险 检测 单元 检测 装载 指令 ， 它 的 控 
制 满足 如 下 条 件 : 


if (ID/EX.MemRead and 
( (ID/EX.RegisterRt = IF/ID.RegisterRs)or 
(ID/EX .RegisterRt = IF/ID.RegisterRt))) 
stall the pipeline 


因为 读 取 数据 存储 器 的 指令 一 定 是 装载 指令 ， 所 以 第 一 行 条 件 检查 指令 是 否 是 一 条 装载 指 
令 。 后 面 的 两 行 是 检测 在 EX 级 的 装载 指令 的 目的 寄存 器 是 否 与 在 DD 级 的 指令 的 某 一 个 源 寄存 
从 相 匹配 。 如 果 条 件 成 立 ， 指 令 将 阻塞 一 个 时 钟 周期 。 经 过 这 一 个 周期 的 阻塞 ， 转 发 逻辑 就 可 以 
处 理 相关 性 并 继续 执行 程序 了 (如 果 没 有 采用 转发 ， 那 么 图 4-58 中 的 指令 还 需要 阻塞 一 个 周 
期 )。 

如 果 处 于 世 级 的 指令 被 阻塞 ， 那 么 处 于 正 级 的 指令 也 必须 被 阻塞 ， 否 则 ， 已 经 取 到 的 指令 
就 会 丢失 。 防 止 这 两 条 指令 继续 执行 的 方法 是 保持 PC 寄存 器 和 HVID 流水 线 寄 存 器 不 变 。 如 果 
这 些 寄存 器 内 容 保 持 不 变 ， 在 下 级 的 指令 将 继续 使 用 相同 的 PC 取 指 令 ， 而 在 ID 级 将 继续 使 用 
IFAID 流水 线 寄存 器 中 的 相同 的 指令 字段 读 寄存 器 堆 。 青 回 到 我 们 熟悉 的 洗衣 店 的 例子 中 ， 这 一 
过 程 就 好 像 是 你 重新 打开 洗衣 机 洗 相 同 的 衣服 而 让 烘 干 机 继续 空转 一 样 。 当 然 ， 就 像 烘 干 机 一 
样 ， 从 EX 开始 的 流水 线 后 半 部 分 必须 “空转 ” ， 它 们 执行 的 指令 必须 不 产生 任何 效果 ， 即 空 指 
令 ”。 

那 我 们 怎么 在 流水 线 中 插入 空 指令 (就 像 气泡 一 样 ) 呢 ? 从 图 4-49 中 我 们 知道 ， 在 EX 
MEM 和 WB 级 如 果 将 所 有 $ 个 控制 信号 都 清除 ( 璐 为 0) ， 就 会 产生 一 个 “什么 都 不 做 ”的 指 
令 ， 即 空 指令 。 通 过 识别 如 级 的 冒险 ， 可 以 在 流水 线 中 插 人 一 个 气泡 ， 方 法 是 把 ID/EX 流水 
线 寄 存 器 的 EX、MEM 和 WB 级 的 控制 信号 都 置 为 0。 这 些 控制 信号 在 每 个 时 钟 周期 都 问 前 传 
递 ， 但 不 会 产生 不 良 后 果 ， 因 为 如 果 控 制 信号 都 是 0 的 话 ， 所 有 寄存 器 和 存储 器 都 不 进行 写 
操作 。 

图 4-59 描述 了 该 指令 序列 的 运行 过 程 : 与 AND 指令 相关 的 流水 线 执 行 槽 被 插入 一 条 空 指 
令 ， 这 样 从 AND 开始 的 所 有 指令 都 被 延迟 一 个 时 钟 周 期 。 就 像 水 管 中 的 气泡 ， 一 个 阻塞 的 气 
泡 会 延缓 后 面 所 有 指令 的 执行 ， 同 时 在 每 个 时 钟 周期 ， 气泡 也 沿 着 流水 线 向 后 推进 一 级 ， 直 
到 它 退 出 流水 线 为 赴 。 在 这 个 例子 中 ， 冒 险 强迫 指令 AP 和 oR 在 第 4 个 时 钟 周期 重复 第 3 个 
时 钟 周期 所 做 的 肉 容 ， 邑 指令 AND 读 存 储 器 并 进行 译 码 ， 指 令 OR 从 存储 器 中 取 指 令 。 这 种 重 
复 的 工作 就 者 阻塞 一 样 ， 但 它 的 效果 是 拉 伸 了 指令 AND 和 oOR， 并 且 延 迟 了 第 二 个 add 指令 的 
取 数 操作 。 z 

图 4-60 给 出 了 冒险 检测 单元 和 转发 单元 的 流水 线 连 接 。 和 前 面 的 介绍 一 样 ， 转 发 单元 控制 
ALU 多 选 器 ， 从 而 可 以 用 相应 的 流水 线 寄存 器 的 值 代 替 通 用 寄存 器 的 值 。 冒险 检测 单元 控制 PC 
各 IFAID 流水 线 寄存 器 的 写 人 ， 以 及 在 实际 控制 信和 号 与 全 0 中 进行 选择 的 多 选 器 。 如 果 
指令 冒险 条 件 为 真 ， 冒 险 检测 单元 就 阻塞 并 清除 所 有 的 控制 字段 ， 如 果 你 想 了 解 更 多 细 
CD 中 的 4. 12 节 给 出 了 一 段 MIPS 代码 ， 其 中 含有 会 导致 阻塞 的 冒险 ， 并 附带 了 对 应 的 单 
期 流水 线 图 。 






加” 空 指令 (nop) : 一 种 不 进行 任何 操作 或 不 改变 任何 状态 的 指令 。 





PCWnte 
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时 间 《【 按 时 钟 周期 ， 
cet cc2 cc3 cc4 CCs CCc6 CC7 CC8 CC9 CC 10 


程序 
执行 
顺序 
( 按 指令 ) 
lw$2, 20 ($1) 






and becomes nop 
and$4, $2, $5 


or $8, $2, $6 


add$9, $4, $2 


4-59 ”在 流水 线 中 插入 阻塞 的 方法 
在 第 4 个 时 钟 周期 中 ， 通 过 将 and 指令 变 成 nop 插入 了 一 个 气泡 。 注 意 ，and 指令 的 正和 卫 级 在 第 2 个 
和 第 3 个 时 钟 周 期 ， 但 它 的 EX 级 被 推迟 到 第 5 个 时 钟 周期 (不 阻塞 的 话 应 该 在 第 4 个 时 钟 周期 ) 。 与 此 类 
似 ，oR 指令 的 下 级 在 第 3 个 时 钟 周期 ,但 它 的 品级 被 推迟 到 第 5 个 时 钟 周 期 (不 阻塞 的 话 应 该 在 第 4 个 时 


钟 周期 ) 。 在 插入 气泡 后 ， 所 有 的 相关 性 沿 时 间 前 进 ， 冒 险 不 再 发 生 。 


冒险 , ID/EX.MemRead 
检测 单元 “ 
ID/EX 
pe on EX/MEM 
i We i Wi ~ MEM/WB 
IF/ID OelX) A Lb 










i 
IF/ID.RegplsterRs 
闻 阐 四 [IF/ID.RegisterRt 
图 由 IF/ID.RegisterRt 
人 [F/ID.RegisterRd 


ID/EX. | ID/EXRegisterRt -一 gisterRt 





图 4-60 流水线 控制 概述 ， 其 中 包括 两 个 转发 多 选 器 、 一 个 冒险 检测 单元 和 一 个 转发 单元 
虽然 简化 了 了 D 和 EX 级 (省略 了 经 过 符号 扩展 的 立即 数 和 分 支 逻辑 )， 但 本 图 说 明了 转发 和 阻塞 的 基本 硬件 支持 。 
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重点 

尽管 编译 器 通常 依赖 于 硬件 解决 冒险 相关 性 以 保证 指令 正确 执行 ， 但 为 了 获得 最 好 的 歼 备 ， 
编译 器 的 设计 者 必须 了 解 流水 线 。 否 则 ， 未 预料 到 的 阻塞 会 降低 编译 代码 的 执行 效率 。 

精 解 ; 前 面 提 到 为 了 避免 写 寄存 器 或 存储 器 而 将 所 有 的 控制 信号 都 置 为 0。 事 实 上 ， 只 需 将 信号 Reg- 
Write 和 MemWrite 置 为 0， 而 不 用 关心 其 他 控制 信号 。 


4.8 控制 冒险 
即使 对 邪恶 从 侧面 进行 上 千 次 攻击 ， 也 比 不 上 从 根源 上 进行 一 次 攻击 。 
Henry David Thoreau, 《Walden? , 1854 
直到 现在 ， 我 们 只 把 冒险 的 概念 局 限 在 算术 运算 和 数据 传输 中 。 但 正如 4.5 节 中 所 提 到 的 那 
样 ， 还 有 一 类 包含 分 支 的 流水 线 冒 险 。 图 4-61 找 述 了 一 个 指令 序列 ， 同 时 说 明了 在 流水 线 中 何 
时 会 发 生 分 支 。 为 了 维持 流水 线 的 运行 ， 每 个 时 钟 周期 都 必须 取 指 ,但 在 我 们 的 设计 中 必须 等 到 
MEM 级 才能 确定 是 否 执 行 分 支 。 如 4.5 节 所 述 ， 与 前 面 讨论 的 数据 冒险 相对 应 ， 这 种 为 了 确保 
预 取 正确 指令 而 导致 的 延迟 叫做 控制 冒险 (control hazard) 或 分 支 冒 险 (branch hazard) 。 


程序 ”时间 (按时 钟 周 期 ) 
执行 CE 








Cals 2 Ge 3 CC 4 Ci CC 0 Gt GG CC9 


44 and $12, $2, $5 
48 or $13, $6, $2 


52 add $14, $2, $2 





72 lw $4, 50($7) JME 一 - 





4-61 分 支 指 令 对 流水 线 的 影响 
指令 左边 的 数字 (40，44，…) 表示 指令 的 地 址 。 由 于 分 支 指令 在 MEM 级 (beq 指令 对 应 于 时 钟 周期 4) 
才能 决定 是 否 执行 分 支 ， 分 支 后 面 三 条 指令 都 将 被 取 回 并 执行 。 如 果 不 加 干涉 的 话 ， 这 三 条 指令 将 在 beqa 指 
令 跳 转 到 地 址 72 执行 1w 之 前 就 开始 执行 了 。 (图 4-31 通过 引信 额外 的 硬件 从 而 将 控制 冒险 减少 到 一 个 时 钟 
周期 ， 本 图 使 用 的 是 没有 经 过 优化 的 数据 通路 。) 


因为 控制 冒险 相对 易于 理解 ,它们 出 现 的 频率 也 比 数据 冒险 要 小 得 多 ,而 且 与 采用 转发 就 
能 有 效 地 解决 数据 冒险 相 比 ， 还 没有 有 效 的 方法 能 够 解决 分 支 冒 险 。 因 此 ， 这 一 节 关 于 控制 冒险 
的 讨论 要 比 前 一 节 的 数据 冒险 要 短 得 多 。 本 节 将 介绍 两 种 解决 控制 冒险 的 方案 ， 并 进行 了 优化 。 


4. 8. 1 假定 分 支 不 发 生 


如 4.5 节 所 述 ， 采 用 阻塞 直到 分 支 判 断 完毕 来 处 理 控制 冒险 的 速度 实在 太 慢 。 一 种 比较 普遍 
的 提高 速度 的 方法 是 假设 分 支 不 发 生 ， 并 继续 执行 顺序 的 指令 流 。 如 果 分 支 发 生 的 话 ， 就 丢弃 已 
经 读 取 并 译 码 的 指令 ， 并 按 分 支 目 标 继续 执行 。 如 果 分 支 不 发 生 的 可 能 性 是 50% ， 同 时 丢弃 指 
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令 的 代价 很 小 的 话 ， 那 么 这 种 优化 方法 可 以 将 控制 冒险 的 代价 减 半 。 

为 了 丢弃 指令 ， 只 需要 将 最 初 的 控制 信号 置 为 0 即 可 ,这 一 点 与 阻塞 解决 装载 指令 的 数据 冒 
险 类 似 。 其 不 同 之 处 在 于 当 分 支 到 达 MEM 级 时 必须 分 别 改 变 在 还 、ID 和 EX 级 的 三 条 指令 的 控 
制 信号 ， 而 对 于 装载 指令 的 阻塞 只 需要 将 ID 级 的 控制 信号 置 为 0， 并 将 其 从 流水 线 中 退出 即 可 。 
分 支 冒险 中 的 丢弃 指令 意味 着 必须 能 够 将 流水 线 的 还 、ID 和 EX 级 的 指令 都 清除 ” 。 


4.8.< 缩短 分 支 的 延迟 


一 种 提高 分 支 效率 的 方法 是 缩短 分 支 的 执行 时 间 。 直 到 现在 ， 我 们 都 假设 在 MEM 级 才能 确 
定 分 支 结构 要 执行 的 下 一 条 指令 的 PC。 确 定 分 支 目标 地 址 的 时 间 越 早 ， 需 要 清除 的 指令 就 越 少 。 
MIPS 体系 结构 是 面向 支持 快速 的 单 周 期 分 支 设计 的 。 设 计 者 注意 到 许多 分 支 仅仅 需要 简单 的 判 
断 〈 如 相等 或 正 负 ) ， 这 些 简 单 的 判断 并 不 需要 完整 的 ALU 操作 而 仅 使 用 简单 的 一 些 逻 辑 门 就 足 
够 了 。 如 果 分 支 条 件 更 复杂 ， 一 般 有 一 条 单独 的 指令 使 用 ALU 来 进行 比较 一 这 种 情况 类 似 于 
第 2 章 中 提 到 的 分 支 条 件 码 。 

为 了 将 分 支 决策 提前 ， 需 要 提前 两 个 动作 ， 计算 分 支 目标 地 址 和 判断 分 支 条 件 。 分 支 目 标 地 
址 的 计算 是 比较 简单 的 。 我 们 在 F/ID 流水 线 寄存 器 中 已 经 有 了 PC 的 值 和 立即 数字 段 ， 所 以 只 
需要 将 分 支 地 址 计算 从 EX 级 移 到 ID 级 就 可 以 了 。 当 然 ， 尽 管 分 支 目标 地 址 对 所 有 指令 都 会 计 
算 ， 但 仅 在 需要 时 才 会 使 用 。 

判断 分 支 条件 比 较 复杂 。 为 了 判断 分 支 的 执行 条 件 ， 需 要 比较 从 ID 级 取 到 的 两 个 寄存 器 的 
值 是 否 相等 。 判 断 相等 的 方法 可 以 是 先 将 对 应 的 位 进行 异 或 操作 ， 然 后 将 结果 按 位 进行 或 操作 。 
为 了 把 分 支 条 件 判断 提前 到 ID 级 ， 还 需要 额外 的 转发 和 冒险 检测 硬件 ， 因 为 分 支 条 件 的 判断 可 
能 依赖 于 还 在 流水 线 中 的 结果 。 例 如 ， 为 了 实现 相等 则 分 支 〈 或 不 等 则 分 支 ) ， 我 们 需要 转发 结 
果 至 ID 级 进行 相等 检测 。 这 里 有 两 个 比较 复杂 的 因素 ; 

1) 在 外 级 指令 译 码 后 ,决定 是 否 需 要 将 所 需 数据 转发 到 相等 检测 单元 进行 相等 检测 。 如 果 
是 分 支 指令 ， 就 可 以 把 PC 替换 为 分 支 目 标 地 址 。 转 发 分 支 指 令 的 操作 数 以 前 是 由 ALU 转发 单元 
来 完成 的 , 但 D 级 相等 检测 单元 的 引入 需要 一 个 新 的 转发 单元 。 必 须 注 意 的 是 ， 需 要 转发 的 分 
支 指 令 源 操作 数 可 能 来 自 ALU/MEM 或 MEM/WB 流水 线 寄存 器 。 

2) 因为 功 级 进行 分 支 比较 所 需 的 数据 可 能 在 后 面 才能 产生 ， 因 此 有 可 能 会 发 生 数据 冒险 ， 
这 样 就 需要 阻塞 流水 线 。 举 例 来 说 ， 如 果 分 支 指令 前 刚好 是 -- 条 ALU 指令 ， 而 这 条 ALU 指令 的 
结果 恰 是 分 支 指令 比较 所 需要 的 ， 那 么 必然 产生 阻塞 ， 因 为 ALU 指令 的 EX 级 将 在 分 支 指令 的 
ID 级 后 发 生 。 再 举 一 个 例子 ， 如 果 分 支 指令 前 刚好 是 一 条 装载 指令 ， 而 装载 指令 的 结果 怡 是 分 
支 指令 判断 所 需要 的 ， 则 必须 产生 两 个 阻塞 ， 因 为 装载 指令 的 结果 将 在 装载 指令 的 MEM 级 结束 
时 产生 ， 但 在 分 支 指令 的 ID 级 开始 时 就 会 用 到 。 

尽管 有 这 些 困难 ， 将 分 支 执行 提前 到 ID 级 依然 是 值得 的 ， 因 为 它 将 分 支 预测 错误 的 代价 减 
小 到 只 有 一 条 指令 ， 就 是 分 支 执行 时 正在 取 的 那 条 指令 。 下 面 的 例题 对 转发 路 径 和 检测 冒险 的 
实现 细节 进行 了 讨论 。 

为 了 在 正 级 清除 指令 ， 我 们 加 入 了 一 条 称 为 下 .Flush 的 控制 信号 ， 即 将 三/ID 流水 线 寄存 器 
的 指令 字段 置 为 0。 清 空 寄 存 器 的 结果 是 将 预 取 到 的 指令 转变 成 为 空 指令 。 

用 区 ”流水线 分 支 

候 定 流水 线 对 分 支 不 发 生 进 行 了 优化 ， 并 且 分 支 的 执行 提前 到 流水 线 的 ID 级 。 试 说 明 下 面 

的 指令 序列 在 分 支 发 生 时 的 执行 情况 ， 


36 sub $10，$4 , $8 





名 清除 (flush) : 因 发 生 了 意外 而 丢弃 流水 线 中 的 指令 。 
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40 beqg $1,$3,7 #PC — relative branch to 40 +4 +7*4 =72 
44 and $12, $2, $5 

48 or $13, $2,$6 

52 add $14,$4,$2 

56 slt $15, $6,$7 


72 lw $4,50 ($7) 


图 4-62 描述 了 分 支 产生 时 指令 序列 的 执行 情况 。 与 图 4-61 不 同 ， 这 里 在 一 个 发 生 的 分 支 上 
只 有 一 个 流水 线 气泡 。 : 


1 1 让 1 
正 -Flush and $12. $2, $5 beq $1, $3,7 ; sub $10, $4, $8 | before<1> ! before<2> 


时 钟 周 期 3 
IF.Flush_ lw $4, 50($7) ' Bubble (nop) ' beq $1, S3. 7 sub $10,.. ! before<1> 








EX/MEM 


~WB MEN/WB 
mt M > 号 也 -要 


] iE) 


时 钟 周期 4 





4-62 在 第 三 个 时 钟 周期 ID 级 确定 分 支 发 生 ， 因 此 地 址 72 被 选 为 下 
一 个 PC 地 址 ， 同 时 将 为 下 一 个 时 钟 周期 预 取 的 指令 置 为 0 
时 钟 周期 4 的 图 描述 了 地 址 为 72 的 指令 被 取 回 ， 并 且 分 支 发 生 的 后 果 是 在 流水 线 中 产生 了 一 个 气泡 或 者 一 
条 空 指令 (由 于 空 指令 实际 上 是 sl 80，$0，0， 所 以 时 钟 周期 4 的 卫 级 是 否 应 该 标 出 还 有 待 商 梭 ) 。 
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4. 8.3 动态 分 支 预测 


假设 分 支 不 发 生 是 一 种 粗略 的 分 支 预测 方法 。 在 这 种 情况 下 ， 我 们 总 是 预测 分 支 不 发 生 ， 如 
果 预 测 错误 就 清空 流水 线 。 对 简单 的 五 级 流水 线 而 言 ， 这 种 方法 结合 基于 编译 器 的 预测 就 已 经 
足够 了 。 从 时 钟 周 期 数 的 角度 来 说 ， 使 用 更 深 的 流水 线 时 分 支 代价 将 增加 。 类 似 地 ， 以 丢弃 的 指 
令 数 来 计算 ， 对 多 发 射 ( 见 4. 10 节 ) 的 分 支 代价 也 将 增加 。 这 种 组 合意 味 着 在 一 个 高 性 能 的 流 
水 线 设计 中 ， 简 单 的 静态 预测 机 制 将 可 能 浪费 大 量 的 性 能 。 如 4.5 节 所 述 ， 如 果 有 更 多 的 硬件 支 
持 ， 我 们 就 可 能 实现 一 些 其 他 的 分 支 预 测 方法 。 

一 种 策略 是 通过 查找 指令 的 地 址 观察 上 一 次 执行 该 指令 时 分 支 是 否 发 生 ， 如 果 上 次 执行 时 
分 支 发 生 就 从 上 次 分 支 发 生 的 好 方 开始 取 新 的 指令 。 这 种 技术 称 为 动态 分 支 预测 e 。 

这 种 策略 的 一 种 实现 方法 就 是 采用 分 支 预测 缓存 2 或 分 支 历 史记 录 表 。 分 支 预测 缓存 是 一 小 
块 按照 分 支 指令 的 地 址 低位 索引 的 存储 器 区 ， 其 中 包括 一 位 或 多 位 数据 用 以 说 明 最 近 是 否 发 生 
过 分 支 。 

这 是 最 简单 的 一 类 缓存 ， 我 们 实际 上 并 不 知道 预测 是 否 正确 ， 而 且 它 还 可 能 由 其 他 具有 相 
同 地 址 低位 的 分 支 设 置 ， 但 这 并 不 影响 这 种 方法 的 准确 率 。 预 测 只 是 对 正确 分 支 方向 的 一 种 候 
设 ,在 这 个 基础 上 ，, 沿 着 预测 的 方向 进行 取 指 ， 如 果 这 种 假设 错误 ,预测 错误 的 指令 将 被 删除 ， 
预测 位 将 取 反 ， 并 返回 原来 的 位 置 ， 继 续 按照 正确 的 方向 取 指 并 执行 。 

使 用 一 位 预测 位 的 简单 预测 方法 具有 性 能 上 的 缺陷 ， 即 使 一 个 分 支 几 乎 总 是 发 生 ， 但 它 _- 
且 未 发 生 就 将 导致 二 次 〈 而 不 是 一 次 ) 预测 错误 。 下 面 的 例子 说 明了 这 种 情况 。 
循环 与 预测 

让 我 们 看 一 个 循环 分 支 ， 它 在 一 行 代码 上 的 分 支 发 生 了 九 次 ,而 不 是 发 生 了 一 次 。 假 设 分 支 
的 预测 位 保存 在 预测 缓存 中 ， 这 种 分 支 预测 的 正确 率 是 多 少 ? 
答案 

静态 预测 方法 会 在 第 一 次 和 最 后 一 次 的 循环 兴 代 时 预测 错误 。 由 于 分 支 在 一 行 上 发 生 了 九 
次 ， 因 此 预测 位 在 最 后 一 次 循环 时 被 设 为 分 支 发 生 ， 而 且 这 次 预测 错误 是 不 可 避免 的 。 而 在 第 一 
次 迭代 时 发 生 预 测 错误 是 因为 预测 位 在 循环 的 上 一 次 迭代 时 被 前 一 个 执行 设置 为 不 执行 ( 在 屠 
次 退出 的 多 代 中 分 支 并 没有 发 生 )。 因 此 这 个 预测 方法 在 分 支 发 生 90% 的 情况 下 预测 的 正确 性 只 
有 80% (两 次 错误 预测 ， 八 次 正确 预测 ) 。 

在 理想 的 情况 下 ,在 这 种 高 度 规 律 的 分 支 结构 中 预测 的 正确 性 与 发 生 分 支 的 频率 相 匹 配 。 
为 了 弥补 这 一 缺陷 ， 经 常 使 用 两 位 预测 位 的 方案 。 在 一 个 两 位 预测 位 的 方案 中 ， 再 次 发 生 预 测 错 
误 时 才 改 变 预 测 。 图 4-63 给 出 了 两 位 预测 位 的 有 限 状 态 机 。 

分 支 预 测 缓存 可 以 使 用 在 正 级 指令 地 址 能 够 访问 的 小 容量 专用 缓存 实现 。 如 果 指 令 预 测 分 
支 发 生 ， 那 么 一 旦 获得 新 的 PC 就 从 该 目标 地 址 开始 取 指 (如 4.8 节 所 述 ， 在 ID 级 就 可 以 获得 
于 )， 示 则 就 顺序 取 指 并 继续 执行 。 如 果 预 测 的 结果 是 错误 的 ， 就 按照 图 4-63 说 明 的 方法 改变 
预测 位 。 

精 解 : 如 4 5 节 所 述 ， 在 五 级 流水 线 中 ， 通 过 重新 定义 分 支 ， 我 们 可 以 将 控制 冒险 转化 为 一 种 可 用 的 
特性 。 延 迟 分 支 可 执行 下 一 条 指令 ， 但 分 支 指令 后 的 第 二 条 指令 仍 将 受到 分 支 的 影响 。 


曲 动态 分 支 预测 ( dynamic branch prediction) ， 根据 运行 信息 在 运行 中 进行 分 支 预测 。 
SO 分 支 预测 缓存 (branch prediction buffer) : 也 称 为 分 支 历史 记录 表 (branch history table) 。 一 小 块 按照 分 支 指令 的 
低位 地 址 索引 的 存储 器 区 ， 其 中 包括 一 位 或 多 位 数据 用 以 说 明 最 近 是 否 发 生 过 分 支 。 
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编译 器 和 汇编 器 都 会 试图 把 总 在 分 支 后 执行 的 那 条 指令 放 人 分 支 延 迟 时 间 片 =?。 这 些 软件 的 作用 就 是 
使 后 续 的 指令 有 效 并 且 有 用 。 图 4-64 给 出 了 三 种 调度 分 文 延迟 时 间 片 的 方法 。 


发 生 


预测 发 生 


EE mW 不 放生 





图 4-63 两 位 预测 位 机 制 的 状态 图 
通过 使 用 两 位 《不 是 一 位 ) 预测 位 ， 在 分 支 经 常 发 生 或 经 常 不 发 生 的 情况 下 (大 多 数 分 支 都 是 这 样 ) 只 
会 发 生 一 次 预测 错误 。 两 位 数据 在 系统 中 可 以 表示 四 种 状态 。 这 种 两 位 方案 是 基于 计数 器 预测 方法 的 -个 应 
用 。 基 于 计数 器 的 预测 方法 是 当 预 测 成 功 时 计数 器 加 1， 预 测 失败 时 计数 器 减 1， 然 后 使 用 计数 器 表示 范围 
的 中 点 作为 分 支 与 不 分 支 的 分 界 点 。 





add $s1. $s2, 9S3 
if $s1 = 0 then 


sub $t4, $t5, $t6 


add $s1, $s2, $s3 
if $s2 = 0 then 





add $s]1, $s2, $s3 
if $s1 = 0 then 
SR Sub $t4, $t5. $t6 





add $s1, $s2, $s3 
if $s1 = 0 then 





add $s1, $s2, $s3 | 
if $s1 = 0 then 





a) 使 用 分 支 前 的 指令 填充 b) 以 分 支 目标 指令 填充 c) 以 分 支 不 发 生 时 的 下 一 条 指令 填充 


图 4-64 ”分支 延迟 时 间 片 的 调度 

每 一 对 方 框 中 的 上 面 一 个 表示 调度 前 的 代码 ， 下 面 一 个 表示 调度 后 的 代码 。 在 方案 a 中 ， 延 迟 时 间 片 通 过 
持 作 分支 之 前 的 一 条 与 分 支 无 关 的 指令 实现 ， 这 是 -- 种 最 佳 的 选择 。 当 方案 a 无 法 实现 时 ， 就 使 用 方案 b 和 
方案 c。 在 方案 b 和 方案 。 的 代码 序列 中 ， 分 支 条 件 中 使 用 了 81 ， 因 而 不 能 将 ada 指令 〈 它 的 目的 寄存 器 是 
$1) 移入 分 支 延 迟 时 间 片 。 方 案 b 中 的 分 支 延 迟 时 间 片 是 按照 分 支 目标 地 址 调度 的 。 由 于 目标 指令 可 以 通过 
其 他 路 径 访问 到 ， 通 常 需要 将 它们 进行 复制 。 当 分 支 发 生 的 可 能 性 比较 天 时 ， 一 般 选 择 方案 b， 如 循环 分 支 。 
了 慑 后 ， 也 可 能 采用 方案 。 预测 分 支 不 发 生 的 下 一 条 指令 进行 调度 。 为 了 使 方案 b 和 方案 中 的 优化 合法 ”zub 
者 令 必须 在 分 支 顶 测 错误 时 也 能 “正常 ”执行 。“ 正 常 ”意味 着 虽然 有 些 工作 是 多 余 的 ， 但 程序 依然 能 够 正 
确 执 行 。 例 如 ， 当 分 支 预测 错误 日 St4 是 未 被 使 用 的 临时 寄存 器 时 ， 就 是 这 种 情况 。 





O 分 支 延迟 时 间 片 《hranch delay slot) ， 紧 眼 延迟 分 支 指令 的 时 间 片 。 在 MIPS 体系 结构 中 ， 用 不 影响 分 支 的 条 
指令 填充 到 该 时 间 片 中 。 
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延迟 分 支 调度 的 限制 在 于 : 中 对 能 够 被 调度 到 分 支 延迟 时 间 片 中 的 指令 的 限制 ; @ 在 编译 
时 对 分 支 发 生 与 否 的 预测 能 力 。 

对 每 个 时 钟 周期 发 射 一 条 指令 的 五 级 流水 线 处 理 器 而 言 ， 延 迟 分 支 是 一 种 简单 有 效 的 方法 。 
随 着 处 理 器 向 更 深 流水 线 以 及 单 周 期 多 指令 的 方向 发 展 ( 见 4.10 节 )， 分 支 延 迟 变 得 更 长 ， 单 
延迟 时 间 片 实际 上 并 没有 多 大 作用 。 所 以 ,与 开销 大 但 更 灵活 的 动态 预测 方法 相 比 ， 延 迟 分 支 技 
术 已 经 失去 了 吸引 力 。 同 时 ， 单 芯片 上 晶体 管 数 目的 增加 使 动态 预测 的 成 本 相对 更 低 。 

精 解 : 分 支 预测 器 告诉 我 们 分 支 是 否 会 发 生 ， 但 我 们 依然 需要 计算 分 支 目 标 地 址 。 在 五 级 流水 线 中 ， 
计算 分 文 目标 地 址 需要 一 个 时 钟 周 期 ， 即 分 支 发 生 将 需要 一 个 时 钟 周 期 的 开销 。 延 迟 分 支 是 消除 这 个 开销 
的 一 种 方法 。 另 一 种 方法 是 使 用 分 支 目标 缓存 ”保存 分 支 目标 地 址 或 分 支 目 标 指 令 。 

两 位 的 动态 预测 机 制 仅 使 用 某 个 特定 分 支 的 信息 。 研 究 人 员 发 现 ,在 使 用 相同 数量 的 预测 
位 的 情况 下 ， 同 时 使 用 局 部 分 支 和 最 近 热 行 分 支 的 全 局 行为 信息 ， 能 够 产生 更 高 的 预测 精度 。 这 
种 预测 器 称 为 相关 预测 器 ”。-- 个 典型 的 相关 预测 器 为 每 个 分 支 提供 两 个 两 位 的 预测 器 ， 其 选择 
依据 是 上 次 分 支 执 行 的 结果 《分 支 发生 与 否 ) 。 这 样 ， 全 局 分 支行 为 可 以 被 看 成 是 在 预测 查找 表 
中 加 入 额外 的 索引 位 。 

最 新 的 分 支 预 测 方法 是 竞赛 预测 器 ”。 竞 赛 预测 器 对 每 个 分 支 使 用 多 个 预测 器 ， 并 记录 哪个 
项 测 八 的 预测 结果 最 好 。 目 前 竞赛 预测 器 的 预测 是 最 准确 的 。 典 型 的 竞赛 预测 器 对 每 个 分 支 地 
址 有 两 个 预测 : 一 个 基于 局 部 信息 ， 一 个 基于 全 局 分 支行 为 。 有 一 个 选择 器 用 于 选择 哪个 预测 器 
的 预测 结果 ， 其 操作 类 似 于 一 位 或 两 位 的 预测 器 。 一 些 最 新 的 微 处 理 器 使 用 了 这 种 预测 器 。 

精 解 ， 一 种 减少 条 件 分 支 数 量 的 方法 是 加 入 条 件 移动 指令 (conditional move instruction ) 。 不 同 于 条 件 
分 支 指令 改变 PC 值 ， 条 件 移动 指令 将 根据 条 件 改 变 移 动 的 目的 寄存 器 。 如 果 条 件 不 成 立 ， 条 件 移动 指令 
就 相当 于 一 条 nop 指令 。 例 如 ， 某 版 本 的 MIPS 体系 结构 指令 集 包 含 movn (move if not zero) 和 movz 
( move if zero) 两 条 指令 。 例 如 ，movn $8, $11, $4， 如 果 寄 存 器 $4 的 值 为 非 零 的 话 ， 该 指令 
复制 寄存 器 $11 的 内 容 至 寄存 器 $88 ; 否则， 该 指令 什么 也 不 做 。 

ARM 指令 集 在 绝 大 多 数 指令 中 都 有 条 件 字 段 。 因 此 ，ARM 程序 一 般 比 MIPS 程序 的 条 件 分 
文 要 少 一 些 。 


4. 8.4 ”流水线 小 结 


我 们 从 洗衣 店 的 例子 开始 ， 介 绍 了 日 常生 活 中 的 流水 线 原理 。 用 这 个 例子 类 比 ， 逐步 解释 了 
指令 的 流水 化 ， 即 在 单 周期 数据 通路 的 基础 上 逐步 增加 流水 线 寄 存 器 、 转发 路 径 、 数 据 冒 险 检 
测 、 分 支 预 测 和 异常 时 指令 的 清除 。 图 4-65 给 出 了 最 终 的 数据 通路 及 控制 。 现在 我 们 已 经 准备 
好 处 理 男 一 种 控制 冒险 异常 。 

小 测验 

考虑 三 种 分 支 预测 机 制 : 预测 分 支 不 发 生 、 预 测 分 支 发 生 和 动态 分 支 预测 。 假定 它们 在 预测 正确 时 无 
开销 ， 预 测 错误 时 开销 为 两 个 时 钟 周 期 ,动态 预测 器 的 平均 准确 率 为 90% 。 在 此 情况 下 ， 对 下 面 的 分 支 而 
言 哪 种 预测 器 是 最 好 的 选择 ? 

A. 分 支 发 生 概 率 为 5% 。 

B. 分 支 发 生 概率 为 95% 。 

C. 分 支 发 生 概率 为 70% 。 





分 支 目标 缓存 branch target buffer) ;一 种 用 于 缓存 分 支 目标 地 址 或 分 支 目标 指令 的 结构 ， 其 _ 般 形式 类 ae 上 

位 的 cache， 因 而 其 硬件 开销 大 于 简单 的 分 支 预 测 组 在 器 ， 雄一 般 形式 为 带 标志 

训 赛 天赐 《orlating predictor) ;综合 考虑 特定 分 支 的 局 部 行为 和 最 近 执 行 分 支 的 全 局 行为 的 分 支 于 测 器 。 
toumament branch predictor) ; 具有 多 种 预测 机 制 的 分 支 预测 器 ， _ 个 : 

选择 其 中 一 个 作为 预测 结果 。 其 带 有 一 个 选择 器 ， 对 给 定 分 支 可 
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4-65 本章 最 终 的 数据 通路 与 控制 
注意 ， 这 是 一 个 概 路 图 ， 没 有 和 履 盖 到 数据 通路 的 所 有 细节 ， 如 图 4-57 中 的 ALUsre 多 选 器 和 图 4-51 中 的 多 选 
器 控制 都 没有 标识 出 来 。 


4.9 异常 
使 一 台 计 算 机 具有 自动 程序 中 断 能 力 并 非 一 件 简单 的 事 ， 因 为 中 断 发 生 时 处 于 不 同 执 行 阶 
段 的 指令 数量 可 能 非常 多 。 





Fred Brooks, Jr. , 《Planning a Computer System ， Project Stretch》, 1962 

控制 是 处 理 嚣 设计 中 最 具 挑 战 性 的 一 个 方面 : 它 最 难 达 到 正确 ， 也 最 难 提高 速度 。 控 制 中 最 
难 的 部 分 之 一 是 实现 异常 和 中 断 “ 一 一 除 分 支 以 外 改变 正常 指令 执行 顺序 的 事件 。 异 常 和 中 断 
最 初 是 用 来 处 理 来 自 处 理 器 内 部 的 意外 事件 ， 如 算术 溢出 。 在 第 6 章 中 我 们 将 看 到 ， 它 们 也 可 用 
于 IO 部 件 与 处 理 器 的 通信 。 

许多 体系 结构 和 作者 不 区 分 中 断 和 异常 ， 统 称 为 中 断 ， 如 Intel x86。 我 们 遵循 MIPS 的 习惯 ， 
术语 异常 指控 制 流 中 任何 意外 的 改变 ， 而 无 论 其 产生 原因 是 来 自 处 理 器 内 部 还 是 外 部 ， 术 语 中 
断 指 由 外 部 引起 的 事件 。 下 面 五 个 例子 说 明了 在 处 理 器 内 部 或 外 部 的 事件 情况 。 











z z 事件 类 型 ”来 源 : 
/ 
异常 或 中 上 


曲 ”异常 (exception) : 也 称 为 中 断 (intermpt) ， 指 打 断 程序 正常 执行 的 突 发 事件 ， 例 如 检测 溢出 等 。 
已 ”中断 (interupt) : 来 自 处 理 器 外 部 的 异常 。 某 些 体系 结构 也 用 “中 断 ” 一 词 表示 所 有 的 腊 常 。 






: 对 应 的 MIPS 术语 


内 部 或 外 部 





第 4 章 处 理 器 .241 


导致 异常 发 生 的 不 同情 况 对 异 弟 处 理 的 支持 提出 了 诸多 要 求 。 在 第 5 章 讨论 存储 层次 和 在 第 
6 章 讨论 VO 时 ， 我 们 将 讨论 这 个 话题 ， 从 而 更 加 清楚 地 理解 这 一 问题 。 本 节 讨 论 两 种 异常 的 检 
测 机 制 ， 这 两 种 异常 由 我 们 讨论 过 的 指令 集 及 其 实现 方式 产生 。 

检测 异常 情况 并 采取 适当 举措 ， 通 常 处 于 处 理 器 的 关键 路 径 上 。 该 路 径 决 定 了 时 钟 周 期 的 
长 度 以 及 处 理 器 性 能 。 如 果 在 控制 单元 的 设计 中 没有 充分 考虑 异常 ， 那 么 在 复杂 实现 中 加 入 异 
常 文 持 会 明显 降低 性 能 ， 并 使 正确 的 设计 更 加 复杂 。 


4. 9. 1 异常 在 MIPS 体系 结构 中 的 处 理 


目前 的 实现 中 可 能 产生 的 两 种 异常 是 未 定义 指令 的 执行 和 算术 溢出 。 在 接 下 来 的 部 分 ， 我 
们 将 使 用 ada $1, $2, $1 指令 作为 算术 溢出 类 型 异常 的 例子 。 异 常 发 生 时 处 理 器 必须 进行 的 基 
本 操作 是 : 在 异常 程序 计数 器 (EPC) 中 保存 出 错 指 令 的 地 址 ， 并 把 控制 权 转 交 给 操作 系统 的 特 
定 地 址 。 

操作 系统 可 采取 适当 的 行动 ， 如 给 用 户 程 序 提供 一 些 服 务 ， 对 溢出 情况 进行 事先 定义 的 操 
作 , 或 者 终止 程序 的 执行 并 报告 错误 。 在 完成 处 理 异常 所 需 动 作 后 ， 操 作 系 统 可 以 终止 程序 ， 也 
可 以 继续 执行 程序 ， 此 时 由 EPC 决定 重新 开始 执行 的 地 方 。 在 第 5 章 将 更 详细 地 讨论 重新 开始 
执行 的 问题 。 

为 了 处 理 异 常 ， 操 作 系统 除 了 要 知道 是 哪 条 指令 引起 异常 之 外 ， 还 必须 知道 引起 异常 的 原 
因 。 主 要 有 两 种 方法 用 于 表示 产生 异常 的 原因 。MIPS 使 用 的 方法 是 设置 一 个 状态 寄存 器 〈 称 为 
Cause 寄存 器 ) ， 其 中 有 一 个 字段 用 于 记录 异常 产生 的 原因 9。 

男 一 种 方法 是 使 用 向 量 中 断 ”。 在 向 量 中 断 中 ,控制 权 被 转移 到 由 异常 原因 决定 的 地 址 处 。 
(操作 系统 通过 异常 向 量 地 址 得 知 异常 原因 。) 例如 ， 为 处 理 前 面 的 两 种 异常 ， 可 定义 如 下 的 两 
个 异常 向 量 地 址 : 








异常 向 量 地 址 (十 六 


8000 0180 ， 


操作 系统 根据 引起 异常 的 地 址 得 知 导致 异常 的 原因 。 地 址 由 32 字 节 或 8 条 指令 进行 区 分 ， 
并 且 操作 系统 必须 记录 异常 的 原因 ， 并 依 此 顺序 执行 一 些 有 限 的 处 理 。 当 出 现 的 异常 不 属于 
问 量 异常 时 ， 单 个 人 口 点 供 所 有 异常 使 用 ,并 且 操 作 系 统 对 状态 寄存 器 进行 译 码 以 便 找到 
原因 。 
通过 给 基本 的 实现 加 上 一 些 额外 的 寄存 器 和 控制 信号 ,就 可 以 处 理 异常 。 假 定 我 们 实现 的 
丰 MIPS 体系 结构 的 异常 处 理 系统 ， 统 一 人 口 地 址 为 8000 0180,。( 事 实 上 ， 实 现 向 量 异 党 也 不 
难 )， 需 要 给 数据 通路 加 上 两 个 寄存 器 : 
”EPC: 32 位 寄存 器 ， 用 于 保存 发 生 异常 的 指令 地 址 (向量 中 断 也 需要 这 样 一 个 寄存 器 ) 。 
。 Cause: 记录 异常 原因 的 寄存 器 。 在 MIPS 体系 结构 中 它 是 32 位 的 ， 虽然 其 中 一 些 位 现在 
还 没有 用 到 。 假 定 使 用 一 个 五 位 的 域 对 前 面 两 种 异常 原因 进行 编码 :未 定义 指令 =10， 
数据 溢出 = 12。 . 





昌 所 有 异常 使 用 同一 入 口 地 址 ， 操作 系统 根据 状态 寄存 器 确定 异常 原因 。 一 一 译 者 注 
后 向 县 中 斯 (vectored intermpt): 由 异常 原因 决定 中 断 控制 转移 地 二 的 中 断 。 
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4. 9.2 在 流水 线 实现 中 的 异常 


在 流水 线 实现 中 ， 异 常 可 被 视 作 另 一 种 形式 的 控制 冒险 。 例 如 ， 假 设 指 令 add 产生 了 一 个 
算术 溢出 。 正 如 上 一 节 对 分 支 发 生 的 处 理 ， 我 们 必须 清除 流水 线 中 aqd 指令 后 的 一 系列 指令 并 
从 新 的 地 址 开始 取 指 。 我 们 将 使 用 与 之 相同 的 机 制 ， 不 过 这 次 是 由 异常 重 置 控制 信号 。 

在 处 理 分 支 预测 错误 时 ， 我 们 已 经 知道 如 何 通过 将 正 级 的 指令 转换 成 nop 指令 来 清除 指令 。 
为 了 清除 ID 级 的 指令 ， 我 们 使 用 ID 级 已 有 的 多 选 器 ， 将 控制 信号 清 零 以 产生 阻塞。 一 个 称 为 
ID.Flush 的 新 控制 信号 与 冒险 检测 单元 的 阻塞 信号 相 或 ， 可 以 在 劝 级 进行 清除 。 为 了 清除 EX 级 
的 指令 ， 我 们 使 用 一 个 称 为 EX.Fiush 的 新 信号 ， 用 它 控制 新 的 多 选 器 将 控制 信号 清 零 。 为 了 从 
地 址 8000 0180,。( MIPS 异常 地 址 ) 开始 取 指 令 ， 只 要 简单 地 加 入 一 个 额外 的 输入 到 PC 的 多 选 
孝 ， 由 它 将 8000 0180,e 传 递 到 PC。 图 4-66 具体 描述 了 这 种 变化 。 


EX Flush 
三 


tr Flush 


“ID Flush 


2 < 3 : ， - -  ， . 
检测 单元 vv 四 
上 ID/EX [0 一 一 
| WB 0 | EX/MEM 
出 下 | se | WB; ， 
PC ” : 





图 4-66 ”处 理 异 常 的 数据 通路 与 控制 
主要 增加 了 以 下 部 分 : 在 PC 多 选 器 中 增加 了 一 个 新 的 输入 8000 0180,。、 一 个 记录 异常 发 生 原因 的 Cause 寄 
和 存 器 以 及 一 个 保存 导致 异常 的 指令 地 址 的 EPC 寄存 器 。8000 0180,6 是 发 生 异 常 时 开始 取 指 令 的 地 址 。 尽 管 图 
中 没有 表示 出 ALU 溢出 信号 ， 但 它 也 是 控制 单元 的 一 个 输入 。 


这 个 例子 指出 了 异常 存在 的 一 个 问题 ， 即 如 果 不 在 指令 执行 期 间 中 止 指令 的 执行 ， 程序 员 
将 无 法 看 到 导致 溢出 的 寄存 器 $1 中 的 原始 值 ， 因 为 它 将 作为 指令 ada 的 目标 寄存 器 被 冲 掉 。 这 
一 问题 可 以 通过 下 面 的 方法 解决 : 异常 溢出 在 EX 级 检测 出 来 ， 可 用 EX.Flush 信号 避免 FX 级 的 
指令 在 WB 级 写 回 结果 。 许 多 异常 需要 我 们 能 够 最 终 正 常 执行 引起 异常 的 指令 。 做 到 这 一 点 最 简 
单 的 方法 是 先 清除 这 条 指令 ， 然 后 在 异常 处 理 完 后 再 重新 执行 这 条 指令 。 

异常 处 理 的 最 后 一 步 是 将 导致 异常 的 指令 的 地 址 保存 到 EPC 中 。 实 际 上 ， 我 们 保存 的 是 原 
始 地 址 +4， 因 此 异常 处 理 例 程 必 须 先 从 保存 的 地 址 中 减 去 4。 图 4-66 给 出 了 一 个 数据 通路 ， 其 
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中 包括 分 支 硬件 以 及 为 处 理 异 常 所 进行 的 必要 调整 。 
流水 线 处 理 句 中 的 异常 

给 出 以 下 指令 序列 : 

40,。 sub $11, $2, $4 

44,。 and $12, $2,$5 

A8,s or $13,$2,$6 

4C,, add $1,$2,$1 

50,。 silt $15, $6, $7 

54;。 lw $16,50 ($7) 


假定 异常 处 理 程序 的 开始 部 分 如 下 : 

80000180,。 sw $25,1000 ($0) 

80000184,， sw $26,1004 ( $0) 

给 出 add 指令 发 生 溢出 异常 时 流水 线 的 情况 。 
答案 | 

图 4-67 给 出 了 从 add 指令 的 EX 级 开始 发 生 的 情况 。 溢 出 在 EX 级 被 检测 到 ，8000 0180 被 
强制 放 入 PC。 在 第 7 个 时 钟 周期 ，add 指令 及 其 后 面 的 指令 被 清除 ， 并 且 异 常 代码 的 第 一 条 指 
令 被 取出 。 注 意 ， 保 存 的 地 址 是 adG 指令 下 一 条 指令 的 地 址 (4C,。+4 =50 ，) 。 

在 前 面 我 们 曾 提 到 五 个 异常 的 例子 ， 在 第 5 章 和 第 6 章 我 们 还 会 看 到 其 他 的 例子 。 任 何 时 钟 
周期 流水 线 中 都 有 五 条 活动 的 指令 ， 问 题 是 如 何 确定 到 底 是 哪 条 指令 引起 了 异常 。 而 且 ， 一 个 时 
钟 周期 内 还 可 能 发 生 多 个 异常 。 通 常 的 解决 方法 是 对 异常 划分 优先 级 ， 这 样 多 个 异常 同时 发 生 
时 就 知道 先 处 理 哪个 。 在 大 多 数 MIPS 实现 中 ,硬件 对 异常 进行 排序 从 而 使 得 最 先 发 生 异常 的 指 
令 被 中 断 。 

1VO 设备 请 求 与 硬件 故障 并 不 与 特定 的 指令 相关 ， 因 此 它们 在 流水 线 中 断 时 机 的 实现 上 具有 
一 定 的 灵活 性 。 因 此 ， 用 于 其 他 异常 的 机 制 在 这 里 也 可 以 很 好 地 工作 。 

EPC 捕 提 中 断 指 令 的 地 址 ， 而 MIPS 的 Cause 寄存 器 在 一 个 时 钟 周期 内 记录 下 所 有 可 能 的 异 
常 ， 因 此 异常 处 理 软 件 判 断 出 该 指令 发 生 了 何 种 异常 。 一 个 重要 的 判断 依据 是 某 一 类 异常 可 能 
在 哪 一 个 流水 线 阶段 发 生 。 例 如 ， 未 定义 的 指令 异常 发 生 在 ID 级 ， 而 调用 操作 系统 异常 发 生 在 
EX 级 。 如 果 在 Cause 寄存 器 中 保存 有 多 个 异常 ， 当 优先 级 最 高 的 异常 处 理 之 后 ， 会 继续 导致 硬 
件 中 断 ， 从 而 处 理 后 面 的 异常 。 
硬件 软件 接口 

硬件 与 操作 系统 必须 协同 工作 才能 按照 我 们 期 望 的 方式 处 理 异常 。 硬件 一 般 暂停 指令 流 中 
导致 异常 的 指令 ， 同 时 执行 完 该 指令 前 的 所 有 指令 ， 清除 该 指令 后 的 所 有 指令 ， 并 且 设置 一 个 寄 
存 改 描述 异常 发 生 的 原因 ， 保 存 导 致 异常 发 生 的 指令 的 地 址 ， 然后 跳 转 到 预先 确定 的 地 址 开始 
执行 。 操 作 系 统 则 查看 异常 发 生 的 原因 并 采取 相应 的 操作 。 对 于 一 个 未 定义 指令 异常 、 硬 件 错误 
异常 或 算术 滋 出 异常 ， 操 作 系统 通 常 终止 执行 的 程序 并 返回 原因 描述 。 对 于 1/O 设备 请 求 或 操作 
系统 服务 调用 ， 操 作 系统 保存 程序 的 当前 状态 ， 执行 期 望 的 任务 ， 然 后 重新 载 入 程序 继续 运行 。 
在 LO 设备 请 求 的 情况 下 ， 我 们 可 能 需要 在 继续 执行 发 出 7O 设备 请 求 的 任务 前 先 运行 另 一 个 任 
务 ， 因 为 该 任务 一 般 在 IZO 完成 之 后 才能 继续 执行 。 这 就 是 保存 和 恢复 任务 状态 如 此 重要 的 原 
因 。 一 个 最 重要 且 频 繁 出 现 的 异常 是 页 缺失 与 TLB 异常 。 第 5 章 描述 了 更 多 关于 这 些 异 常 及 其 
处 理 的 细节 。 
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站 and $12...; 


lw $16, 50($7) | slt $15, $6, $7 : add $1, $2, $1 


IF.Flush 















冒险 
检测 单元 


80000180 









54| 在 
80000180 


2 


时 钟 周期 6 


sw $25, 1000($0) 、 bubble (nop) | ， bubble ， bubble Or Pl 


:EX.Flush 
IF.Flush : 
ID.Flush 


检测 单元 


80000180 


时 钟 周期 7 


4-67 add 指令 算术 溢出 导致 的 异常 
溢出 在 第 6 个 时 钟 周期 的 EX 级 检测 到 ， 因 此 将 add 后 面 的 指令 地 址 (4C +5 =5016) 保存 到 EPC 寄存 器 。 
溢出 导致 在 该 周期 后 面 所 有 的 Flush 信和 号 都 设置 为 1， 并 置 add 的 控制 信号 为 无 效 〈 里 为 0) 。 时 钟 周 期 7 显 
示 了 流水 线 中 转化 为 气泡 的 指令 和 取 异 常 处 理 程 序 的 第 一 条 指令 sw $25,1000( $0) (从 指令 地 址 8000 
018016 处 取得 ) 。 和 需要 注意 的 是 ， 位 于 add 指令 前 的 AND 指令 和 oR 指令 仍然 会 执行 完毕 。 虽 然 图 中 没有 画 
出 ALU 溢出 信号 ,但 它 也 是 控制 单元 的 一 个 输入 。 
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精 解 : 在 流水 线 处 理 器 中 将 每 一 个 异常 与 导致 异常 的 相应 指令 对 应 起 来 的 难度 很 大 ， 因 此 一 些 计算 机 
设计 者 在 一 些 非 关 键 情 况 下 放松 了 这 种 要 求 ， 这 种 处 理 器 一 般 称 为 具有 非 精确 中 断 9 或 者 非 精确 异常 。 在 
上 面 的 例子 中 ， 尽 管 导致 异常 的 指令 地 址 是 4Cs， 但 在 检测 到 异常 后 下 一 个 时 钟 周期 开始 时 PC 的 值 通 党 
为 58is。 具 有 非 精确 异常 处 理 的 处 理 器 可 能 会 将 58; 放 和 人 EPC 中 ， 而 让 操作 系统 确定 是 娜 一 条 指令 导致 了 
异常 。MIPS 以 及 当前 的 大 量 主流 处 理 器 都 提供 精确 中 断 9 或 精确 异常 (我 们 将 在 第 5 章 中 看 到 ， 原 因 之 一 
是 为 了 支持 虚拟 存储 器 ) 。 

精 解 : 尽管 MIPS 对 绝 大 多 数 异常 使 用 8000 0180ie 作 为 异常 人 口 地 址 ， 但 为 了 提高 性 能 ， 对 TLB 缺失 
异常 使 用 8000 00001。 作 为 异常 人 口 地 址 (参见 第 5 章 ) 。 

小 测验 


在 下 面 的 指令 序列 中 会 首先 识别 哪个 异常 ? 


Aadd $1, $2, $1 # 算 术 洲 出 
B. XXX $1, $2, $1 # 未 定义 指令 
C. Sub $1, $2,$1 # 硬 件 错误 


4. 10 并行 和 高 级 指令 级 并 行 

自 先 说 明 一 下 ， 本 节 是 对 一 些 高 级 主题 的 概述 。 如 果 你 希望 了 解 更 多 的 细节 ， 可 以 参考 我 们 
的 另 一 本 教材 : 《Computer Architecture; A Quantitative Approach》 第 4 版 。 本 节 大 约 十 几 页 的 内 
容 在 该 书 中 扩充 到 近 200 页 ( 含 附 录 )。 

流水 线 挖掘 了 指令 间 洪 在 的 并 行 性 。 这 种 并 行 性 被 称 为 指令 级 并 行 (ILP)s。 有 两 种 方法 可 
以 增加 潜在 的 指令 级 并 行程 度 。 第 一 种 是 增加 流水 线 的 深度 以 重 释 更 多 的 指令 。 还 是 用 洗衣 上 店 
的 例子 来 说 明 ， 假 设 洗 衣 机 周期 比 其 他 机 器 的 周期 要 长 ， 我 们 可 以 把 洗衣 机 划分 成 三 个 机 器 ， 分 
别 完 成 原 洗衣 机 洗 、 漂 、 甩 三 个 功能 。 这 样 我 们 就 将 四 级 流水 线 变 成 了 六 级 流水 线 。 为 了 达到 完 
全 的 加 速效 果 ， 我 们 需要 重新 平衡 其 他 步骤 使 得 它们 的 长 度 相同 ， 在 处 理 器 和 洗衣 店 中 都 是 这 
伴 。 因 为 更 多 的 操作 被 重 和 要 ， 有 更 多 的 并 行 性 被 挖掘 出 来 。 因 为 时 钟 周期 缩短 的 缘故 ， 人 性 能 会 得 
到 潜在 的 增强 。 

为 一 种 方法 是 复制 处 理 器 内 部 部 件 的 数量 ， 使 得 每 个 流水 级 可 以 启动 多 条 指令 。 这 种 技术 
一 般 被 称 为 多 发 射 。 一 个 多 发 射 的 洗衣 店 会 把 原 有 的 一 台 洗衣 机 和 烘 干 机 替换 为 三 台 洗衣 机 和 
三 台 傣 干 机 。 还 需要 雇佣 更 多 的 洗衣 工 来 折 琶 和 存储 三 倍 于 原来 的 衣服 。 这 种 方法 的 缺点 是 需 
要 额外 的 工作 让 所 有 机 器 同时 运转 并 将 负载 传 到 下 个 流水 级 。 

每 个 阶段 同时 启动 多 条 指令 允许 指令 执行 速率 超过 时 钟 速率 ， 换 名 话说， 就 是 CPI 小 于 1 
有 有 时候 使 用 PC， 即 每 时 钟 周 期 执行 的 指令 数 作为 度量 会 更 方便 。 例 如 ， 一 个 4 GHz 四 路 多 发 身 
微 处 理 妖 能 以 每 秒 160 亿 指令 的 峰值 速率 执行 ， 其 最 好 情况 下 的 CPI 达到 0.25，IPC 达到 4。 假 
设 是 五 级 流水 线 ， 这 个 处 理 器 任何 时 刻 都 可 能 有 20 条 指令 在 同时 执行 。 现在 的 高 端 微 处 理 器 尝 
试 在 每 个 时 钟 周期 发 射 3 ~6 条 指令 。 然 而 ， 一 般 来 说 对 于 能 同时 执行 的 指令 ， 肯 定 是 存在 很 多 
约束 的 。 

实现 一 个 多 发 射 处 理 器 主要 有 两 种 方式 ， 其 区 别 是 将 主要 工作 分 给 编译 器 来 做 还 是 硬件 来 
做 。 由 于 分 工 方法 不 同 导致 某 些 决策 是 静态 进行 的 (在 编译 时 还 是 动态 进行 的 《在 执行 时 )， 


非 精 确 中 断 (imprecise interrupt) ;也 称 为 非 精确 异常 ( imprecise exception ) 。 流 水 线 处 理 器 中 的 中 断 或 异常 不 与 
导致 中 断 或 异常 的 指令 精确 地 关联 。 

精确 中 断 ( precise interrupt) 也 称 为 精确 异常 (precise exception ) 。 流 水 线 处 理 器 中 的 中 断 或 异常 与 导致 中 断 或 
异常 的 指令 精确 地 关联 。 

指令 级 并 行 (instruction-level parallelism) ， 指 令 间 的 并 行 性 。 

多 发 射 (multiple issue) : 一 种 单 时 钟 周期 内 发 射 多 条 指令 的 机 制 。 


@UW 0 0 
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所 以 这 两 种 方式 有 时 也 被 称 为 静态 多 发 射 " 和 动态 多 发 射 ”。 正 如 我 们 即将 见 到 的 ， 两 种 方式 还 
有 其 他 别名 。 

多 发 射流 水 线 必须 处 理 以 下 两 个 问题 : 

1) 往 发 射 权 中 发 射 多 条 指令 : 处 理 器 如 何 确定 在 给 定 的 时 钟 周期 发 射 多 少 条 指令 以 及 发 
射 何 种 指令 呢 ? 在 大 多 数 静 态 发 射 处 理 器 中 ， 这 个 过 程 至 少 有 很 大 一 部 分 是 由 编译 器 处 理 的 。 而 
在 动态 发 射 处理 器 中 ， 这 个 问题 一 般 是 由 处 理 器 在 运行 时 处 理 的 ， 尽 管 编译 器 也 会 尽 其 所 能 通 
过 调整 指令 顺序 加 以 协助 。 

2) 处 理 数据 冒险 和 控制 冒险 : 在 静态 发 射 处 理 器 中 ， 部 分 甚至 全 部 的 数据 冒险 和 控制 冒险 
是 由 编译 器 静态 处 理 的 。 相 反 ， 绝 大 多 数 的 动态 发 射 处 理 器 通过 硬件 技术 在 执行 时 至 少 消除 某 
些 类 别 的 冒险 。 

尽管 这 里 我 们 把 它们 看 成 两 种 不 同 的 方法 ， 实 际 上 这 两 种 方法 经 常 借 用 对 方 的 技术 ， 没 有 
哪 一 种 方法 可 以 称 得 上 是 完全 独立 的 。 


4. 10. 1 推测 的 概念 


推测 是 一 种 寻找 和 挖掘 更 多 ILP 的 最 重要 的 方法 。 推 测 * 是 一 种 为 了 使 依赖 于 被 推测 指令 的 
其 他 指令 可 以 执行 ， 而 人 允许 编译 器 或 处 理 器 “猜测 ”指令 结果 的 方法 。 例 如 ， 我 们 可 以 推测 分 
支 指令 的 结果 ， 这 样 分 支 后 的 其 他 指令 就 可 以 提前 执行 了 。 另 一 个 例子 是 假设 load 指令 前 有 一 
条 store 指令 ， 我 们 可 以 推测 它们 不 对 同一 存储 器 地 址 进行 访问 ， 这 样 就 可 以 把 load 指令 提 到 
store 指令 前 执行 。 推 测 技术 的 问题 在 于 可 能 会 猜 错 。 所 以 ， 任 何 推测 技术 必须 包含 -- 种 机 制 ， 
它 能 检查 推测 的 正确 性 并 在 推测 错误 时 能 取消 根据 原 推 测 结果 执行 指令 的 影响 。 实 现 这 种 回 滚 ， 
能 力 增 加 了 额外 的 复杂 性 。 

推测 可 以 由 编译 器 或 硬件 来 完成 。 例 如 ， 编 译 器 可 以 利用 推测 对 指令 进行 重 排序 ， 将 一 条 指 
令 移 过 分 支 ， 也 可 将 load 指令 与 store 指令 交换 。 使 用 本 节 后 面 讨 论 的 技术 ， 处 理 器 硬件 可 以 在 
运行 时 实现 同样 的 变换 。 

推测 错误 时 的 人 恢复 机 制 对 软 硬 件 是 非常 不 同 的 。 对 软件 来 说 ， 编 译 器 经 常 插 人 额外 的 指令 
检查 推测 的 正确 性 并 提供 专门 的 修复 例 程 供 推测 错误 时 使 用 。 对 硬件 来 说 ， 处 理 器 经 常 缓存 扒 
测 的 结果 直至 推测 的 结果 得 到 确认 。 如 果 推 测 是 正确 的 ， 缓 存 的 结果 写 回 寄存 器 堆 和 存储 器 。 如 
果 推测 是 错误 的 ,硬件 将 清除 缓存 并 重新 执行 正确 的 指令 序列 。 

推测 还 可 能 导致 男 一 个 问题 : 对 某 些 指令 的 推测 会 导致 本 不 存在 的 异常 。 例 如 ， 假 设 推 
测 执 行 一 条 装载 指令 ， 但 是 在 推测 错误 的 情况 下 ,该 指令 所 使 用 的 地 址 是 非法 的 。 结 果 ， 一 
个 本 不 应 该 发 生 的 异常 发 生 了 。 这 个 问题 之 所 以 复杂 是 因为 ， 如 果 这 条 装载 指令 本 来 不 是 推 
测 执行 ， 那 么 该 异常 必然 发 生 。 在 基于 编译 器 的 推测 中 ， 这 类 问题 的 处 理 方法 是 加 入 额外 的 
推测 支持 ， 使 得 这 样 的 异常 暂时 忽略 直至 可 以 确定 异常 会 发 生 为 止 。 在 基于 硬件 的 推测 中 ， 
异常 敏 简 单 地 缓存 起 来 直到 导致 异常 的 指令 确定 会 执行 。 在 异常 真正 发 生 时 ， 就 会 执行 正 党 
的 异常 处 理 程序 。 

推测 在 设计 正确 时 能 改善 性 能 ， 而 不 慎 使 用 可 能 降低 性 能 ， 所 以 需要 做 大 量 的 工作 来 决定 
何 时 采用 推测 更 为 合适 。 在 本 节 的 后 半 部 分 ,我们 将 介绍 静态 和 动态 的 推测 技术 。 


静态 多 发 射 《atatie multiple issue) ， 实 现 多 发 射 处 理 器 的 一 种 方法 ， 其 中 决策 是 在 执行 前 的 编译 阶段 作出 的 。 
动态 多 发 射 《dynamic multiple issue) : 实现 多 发 射 处 理 器 的 一 种 方法 ， 其 中 决策 是 由 处 理 器 在 执行 阶段 作出 的 。 
发 射 梓 (issue slot) ， 在 给 定时 钟 周期 内 能 够 发 射 指令 的 位 置 ， 可 以 类 比 于 短跑 比赛 中 的 起 点 位 置 。 
推测 speculation) : 一 种 编译 器 或 处 理 器 推测 指令 结果 以 消除 执行 其 他 指令 对 该 结果 依赖 的 技术 


A 
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4. 10.2 静态 多 发 射 处 理 器 


所 有 的 静态 多 发 射 处 理 器 都 使 用 编译 器 来 帮助 封装 多 条 指令 并 处 理 冒 险 。 在 一 个 更 态 发 射 处 理 
器 中 ， 可 以 在 给 定时 钟 周期 内 发 射 多 条 指令 ， 也 称 为 发 射 包 2 。 发 射 包 可 被 视 为 一 条 完成 多 个 操作 
的 长 指令 。 这 种 看 法 不 仅 是 为 了 类 比 ， 实 际 上 也 确实 可 以 这 么 理解 。 因 为 静态 多 发 射 处 理 器 一 般 对 
一 个 时 钟 周 期 内 能 发 射 的 多 条 指令 有 所 限制 ， 因 此 把 发 射 包 看 成 允许 同时 进行 很 多 操作 的 一 条 指令 
是 可 行 的 。 这 种 观点 引出 了 这 种 方法 的 最 初 名 字 : 超 长 指令 字 (VLIW)9 。 

绝 大 多 数 静 态 多 发 射 处 理 器 也 依赖 编译 器 处 理 数 据 冒 险 和 控制 冒险 。 编 译 器 的 任务 可 能 包 
括 静 态 分 支 预测 和 代码 调度 ， 以 减少 冒险 或 阻止 所 有 的 冒险 。 在 描述 更 先进 的 处 理 器 中 所 采用 
的 技术 之 前 ， 先 来 看 一 个 简单 的 静态 多 发 射 MIPS 处 理 器 的 例子 。 

一 个 例子 : MIPS 指令 集 的 静态 多 发 身 

为 了 感受 一 下 静态 多 发 射 我 们 考查 一 个 简单 的 双 发 射 MIPS 处 理 器 ， 其 中 一 条 指令 可 以 是 
整 型 ALU 操作 或 分 支 ， 另 一 条 指令 可 以 是 装载 指令 或 存储 指令 。 在 某 些 柑 人 式 MIPS 处 理 器 中 就 
是 这 么 设计 的 。 每 个 时 钟 周期 发 射 两 条 指令 意味 着 需要 取 回 和 译 码 64 位 的 指令 。 在 许多 静态 多 
发 射 处 理 器 中 ， 其 至 是 所 有 的 VLIW 处 理 器 中 ， 严 格 限制 了 可 同时 发 射 指令 的 所 处 位 置 以 简化 译 
码 和 发 射 过 程 。 因 此 ， 我 们 要 求 两 条 指令 成 对 放 在 一 个 64 位 对 齐 的 内 存 区 域 中 ， 并 且 ALU 指令 
或 分 支 指令 必须 放 在 前 面 。 此 外 ， 如 果 找 不 到 另 一 条 与 之 可 以 同时 发 射 的 指令 ,就 用 nop 指令 代 
替 它 。 这 样 ， 指 令 总 是 可 以 成 对 发 射 ， 当 然 其 中 可 能 有 一 条 nop 指令 。 图 4-68 给 出 了 指令 成 对 
在 流水 线 中 运行 的 情况 。 








图 4-68 ”静态 双 发 射流 水 线 

ALU 指令 与 数据 传输 指令 同时 发 射 。 这 里 我 们 假设 使 用 与 单 发 射 相同 的 五 级 流水 线 。 尽 管 这 并 非 严 格 的 要 

求 ， 但 这 样 做 确实 会 带 来 一 些 好 处 。 特 别 是 使 寄存 器 堆 的 写 操作 位 于 流水 线 的 最 后 可 以 简化 异常 处 理 和 降低 

实现 精确 异常 的 难度 ， 这 些 问 题 在 多 发 射 处 理 器 中 将 变 得 更 加 难以 处 理 。 

静态 多 发 射 处 理 器 之 间 的 不 同 在 于 处 理 潜在 的 数据 冒险 和 控制 冒险 的 方式 。 在 有 的 设计 中 
编译 器 负责 避免 所 有 的 冒险 ， 它 通过 调度 指令 和 插入 no-ops 等 方法 使 得 代码 在 执行 时 完全 不 需 
要 冒险 检测 和 硬件 产生 阻塞 。 在 另外 一 些 设计 中 ， 硬件 检测 数据 冒险 并 在 两 个 发 射 包 间 产 生 阻 
窄 ， 而 编译 央 只 负责 避免 一 个 指令 对 中 两 条 指令 之 间 的 依赖 。 尽 管 如 此 ， 慎 险 仍 会 使 包含 依赖 指 
令 的 整个 发 射 包 阻塞 。 不 管 是 软件 必须 处 理 所 有 的 冒险 还 是 只 负责 减少 不 同 发 射 包 之 间 的 冒险 ， 
都 会 增加 一 次 完成 多 个 操作 的 长 指令 的 情况 。 在 这 个 例子 中 ， 我 们 假定 使 用 第 二 种 方法 。 


日 ”发 射 包 (issue packet): 在 一 个 时 钟 周期 内 发 射 的 多 条 指令 的 集合 。 这 个 包 可 以 由 编 i 态 , 
理 器 动态 生成 。 3 译 器 静态 生成 ， 也 可 以 由 处 
斩 超 长 指令 字 (Very Long Instruction Word, VLIW). 一 类 可 以 同时 启动 多 个 操作 的 指令 集 ， 其 中 操 和 从 
中 相互 独立 ， 并 且 -一 般 都 有 独立 的 操作 码 域 。 ” 作 在 单个 指令 
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为 了 并 行 发 射 一 个 ALU 操作 和 数据 传输 操作 ， 首 先 需 要 增加 一 些 硬件 : 除了 通常 的 冒险 检 
测 和 阻塞 逻辑 之 外 ， 还 有 寄存 器 堆 的 额外 端口 〈 见 图 4-69) 。 在 一 个 时 钟 周 期 内 ， 我 们 需要 为 
ALU 操作 读 两 个 以 上 寄存 器 ， 为 存储 操作 读 两 个 以 上 寄存 器 ， 为 ALU 操作 写 一 个 端口 ， 为 装载 
操作 写 一 个 端口 。 因 为 ALU 要 用 来 进行 ALU 操作 ， 所 以 需要 一 个 额外 的 加 法 器 来 为 数据 传输 计 
算 有 效 地 址 。 如 果 没 有 这 些 额外 的 硬件 资源 ， 我 们 的 双 发 射流 水 线 将 不 可 避免 地 遭遇 结构 冒险 。 






M 
80000180 
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4-69 一 个 静态 双 发 射 的 数据 通路 

双 发 射 所 需 的 额外 硬件 用 灰色 线 显 示 ， 主 要 包括 : 来 自 指令 存储 器 的 额外 32 位 输出 ， 寄 存 器 堆 多 出 的 两 个 

读 端 口 和 一 个 写 端口 ， 还 有 一 个 额外 的 ALU。 这 里 假设 下 面 那个 ALU 处 理 数据 传输 时 的 地 址 计算 ， 而 上 面 那 

个 ALU 处 理 所 有 的 其 他 操作 。 

显然 ， 双 发 射 处 理 器 最 多 能 将 性 能 提高 两 倍 。 事 实 上 ， 为 了 达到 这 一 点 ， 需 要 双 发 射流 水 线 
中 重 营 的 指令 数 翻 倍 。 额 外 的 重 全 使 数据 冒险 和 控制 冒险 带 来 的 相对 性 能 损失 也 增加 了 。 例 如 ， 
在 我 们 简单 的 五 级 流水 线 中 ， 装 载 指 令 有 一 个 时 钟 周 期 的 使 用 延迟 8 ， 以 防止 一 条 指令 无 阻 察 地 
使 用 其 结果 。 在 一 个 双 发 射 五 级 流水 线 中 ， 装 载 指令 的 结果 不 能 在 下 个 时 钟 周期 使 用 。 这 意味 着 
下 两 条 指令 不 能 无 阻塞 地 使 用 装载 的 结果 。 而 且 ， 原 本 在 简单 的 一 级 流水 线 中 没有 使 用 延迟 的 
ALU 指令 现在 有 一 个 周期 的 使 用 延迟 ， 因 为 其 结果 不 能 在 与 其 配对 的 存储 指令 或 装载 指令 中 使 
用 。 为 了 有 效 地 挖掘 多 发 射 处 理 器 中 潜在 的 并 行 性 ， 需 要 使 用 更 高 级 的 编译 器 或 硬件 调度 技术 
其 中 静态 多 发 射 对 编译 器 有 更 高 的 要 求 。 
区 简单 的 多 发 射 代码 调度 

在 一 个 MIPS 静态 双 发 射流 水 线 中 ， 下 面 这 个 循环 将 如 何 调度 ? 


Loop: 1w $t0,0( $s1) #8t0 =array element 
addu $t0,$t0,$s2 #add scalar in $s2 
Sw $t0 ,0 ($s1) #store result 
addi $sl, $sl,—4 #decrement pointer 


bne $sl, $zero,Loop #branch $si! =0 


名 ”使 用 延迟 〈use latency) : 在 装载 指令 与 可 以 无 阻塞 使 用 其 结果 的 指令 间 相 隔 的 时 钟 周 期 数 。 
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重 排序 该 指令 序列 以 尽 可 能 地 避免 流水 线 阻 塞 。 假 设 分 支 是 可 预测 的 ， 即 控制 置 险 由 硬件 
处 理 。 

前 三 条 指令 间 存 在 数据 相关 性 ， 最 后 两 条 指令 间 也 是 如 此 。 图 4-70 给 出 了 这 些 指 令 的 最 佳 
调度 方式 。 注 意 ， 只 有 一 对 指令 同时 使 用 了 两 个 发 射 权 。 每 次 循环 需要 花费 4 个 时 钟 周 期 。 在 4 
个 时 钟 周期 内 执行 5 条 指令 ,与 最 好 情况 下 0.5 的 CPI 和 2.0 的 IPC 相 比 ，CPI 只 有 0.8 而 1PC 只 
有 1.25。 注 意 ， 在 计算 CPI 或 IPC 时 ,我 们 没有 把 执行 的 nop 指令 也 算 到 有 效 的 指令 中 去 。 如 果 
算 进 去 能 提高 CPI， 但 并 不 能 提高 真实 的 性 能 。 















ALU 或 分 支 指令 数据 传输 指令 


mm | 
mm | 


图 4-70 ”在 双 发 射 MIPS 流水 线 中 调度 的 代码 
空白 槽 中 是 nop 指令 。 

有 一 种 重要 的 从 循环 中 获得 更 多 性 能 的 编译 技术 叫 循 环 展开 。 循 环 展开 时 循环 体会 被 复制 
多 份 。 循 环 展开 后 ， 通 过 重合 不 同 循环 体 中 的 指令 可 以 获得 更 高 的 指令 级 并 行 (ILP)。 
多 发 射流 水 线 中 的 循环 展开 

试 着 对 上 面 的 例子 进行 循环 展开 和 调度 ， 看 其 效果 如 何 。 为 简单 起 见 ， 假 设 循环 起 始 地 址 与 
32 位 内 存 边 界 对 齐 。 

为 了 无 延迟 地 调度 循环 ,我 们 需要 把 循环 复制 4 份 。 在 展开 和 消除 不 必要 的 循环 开销 指令 
后 ， 将 得 到 4 个 备份 ， 每 份 包含 lw 指令 、add 指令 和 sw 指令 ,还 有 addi 指令 和 bne 指令 各 一 
条 。 图 4-71 给 出 了 展开 并 调度 后 的 代码 。 










Loop: 










ALL 或 分 支 指令 ”数据 传输 指令 


$sl, $sl,-16 





| bne $s1,$zero, Loop Sw $t3, 4 {$s1) 8 
4-71 对 图 4-70 中 的 代码 进行 循环 展开 并 在 一 个 静态 双 发 射 MIPS 流水 线 中 调度 后 的 代码 
空白 模 中 是 nop 指令 。 因 为 循环 中 的 第 一 条 指令 将 $sl 寄存 器 中 的 值 碱 16， 而 装载 指令 的 地 址 又 是 $s1 寄 

存 器 中 的 原 值 ， 所 以 这 个 地 址 依次 减 4、 减 8、 减 12。 


在 循环 展开 过 程 中 ， 编 译 器 引入 了 儿 个 临时 寄存 器 ( $t1、$t2、$t3)。 这 个 过 程 被 称 为 寄 


名 ”循环 展开 〈ijoop unrolling) : 一 种 从 存 取 数组 的 循环 中 获取 更 多 性 能 的 技术 ， 其 中 循环 体会 被 复制 多 份 并 且 不 局 
循环 体 中 的 指令 可 能 会 调度 到 一 起 。 
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存 器 重 命 名 ”， 目 的 是 为 了 消除 一 些 虚假 的 数据 依赖 ， 这 些 虚 假 的 数据 依赖 可 能 导致 潜在 的 冒险 
或 妨碍 编译 器 灵活 地 调度 代码 。 考 虑 一 下 如 果 只 使 用 $t0 展开 的 代码 是 什么 样子 的 。 在 指令 
t0v,4($sl) 后 面 会 有 多 对 lw $t0,0($$s1) 指 令 和 adqu $t0,$t0,$s2 指令 。 如 果 不 管 $t0 
寄存 器 的 使 用 的 话 ， 这 些 指令 点 该 是 完全 无 关 的 ， 即 一 个 指令 对 与 下 一 个 指令 对 之 间 没 有 任何 
数据 流动 。 这 就 是 反 相 关 ”， 也 被 称 为 名 字 相 关 ， 即 只 是 因为 重用 寄存 器 名 引起 的 相关 ， 而 并 非 
一 个 真实 的 数据 相关 。 

在 循环 展开 的 过 程 中 重 命名 寄存 桥 允 许 编译 天 随后 移动 这 些 无 关 的 指令 以 更 好 地 调度 。 重 
命名 的 过 程 消除 了 名 字 相 关 ， 辣 时 保留 了 真正 的 相关 。 

注意 ， 既 然 循 环 中 14 条 指令 中 的 12 条 以 指令 对 的 形式 被 执行 ，4 次 循环 将 花费 8 个 时 钟 周 
期 ， 即 每 次 循环 2 个 时 钟 周 期 ，CPI 为 8/14 =0.57。 双 发 射 加 上 循环 展开 与 调度 使 得 性 能 提高 了 
接近 两 倍 ， 这 一 方面 是 因为 减少 了 循环 控制 指令 ， 另 一 方面 是 因为 双 发 射 的 缘故 。 这 种 性 能 提高 
的 代价 是 使 用 了 四 个 而 非 一 个 临时 寄存 器 ， 同 时 代码 长 度 也 增长 了 很 多 。 
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动态 多 发 射 处 理 器 通常 也 称 为 超标 量 处 理 嚣 ， 或 简称 超标 量 S。 在 最 简单 的 超标 量 处 理 器 
中 ， 指 令 顺 序 发 射 ， 每 个 周期 处 理 器 决定 是 发 射 0 条、1 条 ， 还 是 多 条 指令 。 显 然 ， 在 这 种 处 理 
名 上 要 达到 较 好 的 性 能 仍然 依赖 编译 器 对 指令 的 调度 ， 通 过 错过 依赖 关系 以 达到 较 高 的 指令 发 
别 速 率 。 尽 管 使 用 了 编译 器 进行 调度 ， 这 种 简单 的 超标 量 处理 器 与 VLIW 处 理 器 仍 有 显著 不 同 。 
在 超标 量 处 理 器 中 ， 不 管 代 码 是 否 经 过 调度 ， 都 是 由 硬件 来 保证 执行 的 正确 性 。 并 且 ， 编 译 得 到 
的 代码 应 当 始 终 正 确 执行 ， 而 与 指令 发 射 速率 和 处 理 器 的 流水 线 结构 无 关 。 在 某 些 VLIW 的 设计 
中 情况 并 非 如 此 ， 当 把 代码 从 一 个 处 理 器 移 到 另 一 个 处 理 器 上 运行 时 ， 可 能 需要 重新 编译 。 在 其 
他 一 些 静 态 发 射 处 理 器 上 ， 代 码 可 以 在 不 同 的 处 理 器 上 实现 正确 运行 ， 但 效果 可 能 很 差 以 至 于 
不 得 不 重新 编译 。 . 

许多 超标 量 处 理 器 扩展 了 基本 的 动态 发 射 决策 ， 将 动态 流水 线 调度 9 也 包含 在 内 。 动 态 流水 
线 调度 选择 某 个 时 钟 周 期 内 将 执行 的 指令 ,约束 条 件 是 尽量 不 产生 冒险 和 阻塞 。 让 我 们 从 一 个 
简单 的 数据 冒险 的 例子 出 发 来 进行 说 明 。 考 虑 下 面 的 指令 序列 ， 

lw $t0 ,20 ($s2) 

addu $t1, $t0, $t2 

sub $s4, $s4, $t3 

slti $t5, $s4,20 

即使 sub 指令 准备 好 执行 ， 它 也 必须 等 待 ls 和 addu 指令 先 结束 才 行 。 如 果 内 存 很 慢 的 话 
(第 5 章 解 释 了 有 时 访 存 操作 会 很 慢 的 原因 ， 即 高 速 缓存 缺失 ) ，sub 指令 可 能 会 等 待 很 多 个 时 
钟 周期 。 动 态 流 水 线 调度 可 以 部 分 或 者 完全 避免 这 种 冒险 。 : 

动态 流水 线 调度 

动态 流水 线 调度 选择 下 一 条 要 执行 的 指令 ， 可 能 的 话 会 重 排 指令 以 避免 阻塞 。 在 这 种 处 理 
入 中 ， 流 水 线 被 划分 为 3 个 主要 单元 ， 取 指 与 发 射 单元 、 多 个 功能 单元 (在 2008 年 的 高 端 处 理 


寄存 器 重 命名 〈 register renaming) : 由 编译 器 或 硬件 对 寄存 器 进行 重 命名 以 消除 反 相 关 。 

反 相关 (antidependence) : 也 被 称 为 名 字 相关 (name dependence) ， 因为 寄存 器 名 的 重用 导致 的 相关 ， 并 非 由 两 
条 指令 中 使 用 同一 个 值 导 致 的 真正 相关 。 

超标 量 (superscalar) : 一 种 高 级 流水 线 技术 ， 可 以 使 每 个 周期 处 理 器 能 执行 的 指令 数 超过 一 条 。 

动态 流水 线 调度 〈dynamie pipeline scheduling) : 对 指令 进行 重 排序 以 避免 阻塞 的 硬件 支持 。 


@@ OO 
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器 中 有 10 个 或 更 多 ) 和 一 个 提交 单元 >?。 图 4-72 描述 了 这 个 模型 。 第 一 个 单元 取 指 并 译 码 ， 然 
后 将 每 条 指令 发 送 到 相应 的 功能 单元 执行 。 每 个 功能 单元 都 有 自己 的 缓冲 区 ( 称 为 保留 站 9)， 
用 来 保存 操作 数 和 操作 (下 一 节 我 们 将 oc 

讨论 许多 最 新 处 理 器 中 使 用 的 保留 站 的 
替代 选择 ) 。 当 缓冲 区 中 包含 了 所 有 的 操 
作 数 ， 并 且 功 能 单元 就 绪 时 ， 结 果 就 被 
计算 出 来 。 结 果 被 得 到 后 ， 它 被 发 送 到 
等 待 该 结果 的 保留 站 和 提交 单元 。 提 交 
单元 缓存 这 个 结果 ， 在 确定 安全 时 ， 再 
将 这 个 结果 写 回 寄存 器 堆 或 存储 器 (对 单元 
存储 指令 ) 。 提 交 单 元 中 的 缓冲 区 通常 称 

为 重 排序 缓冲 区 8 ， 它 也 可 以 用 来 提供 操 

作 数 ， 其 工作 方式 类 似 于 静态 调度 流水 


顺序 发 射 


装载 / = 
乱 序 执行 


取 指 与 译 码 单元 






线 中 的 转发 逻辑 。 一 旦 结果 写 回 寄存 器 嘲 序 提交 
堆 ， 其 可 以 从 寄存 器 堆 中 直接 被 取出 ， 图 4-72 动态 调度 流水 线 中 的 三 个 主要 单元 
和 一 般 的 流水 线 完全 一 样 。 最 后 一 个 更 新 状态 的 步骤 也 被 称 为 退休 或 毕业 。 


将 操作 数 缓存 在 保留 站 中 并 将 结果 放 在 重 排序 缓冲 区 中 ， 实 际 上 提供 了 一 种 寄存 器 重 命名 
机 制 ， 类 似 于 前 面 循环 展开 例子 中 编译 器 所 做 的 工作 。 为 了 在 概念 上 分 析 其 工作 方式 ， 考 虑 如 下 
几 个 步骤 : 

1) 发 射 指令 时 ， 它 先 被 复制 到 合适 功能 单元 的 保留 站 。 如 果 它 的 操作 数 在 寄存 器 堆 中 或 重 
排序 缓冲 区 中 可 用 ， 那 么 操作 数 立 即 被 复制 到 保留 站 中 。 除 非 所 有 的 操作 数 和 执行 单元 可 用 ， 否 
则 指令 一 直 缓 存在 保留 站 中 。 如 果 指 令 已 经 被 发 射 ， 那 么 其 操作 数 对 应 的 寄存 器 堆 副本 不 再 需 
要 ， 如 果 此 时 发 生 了 对 该 寄存 器 的 写 请 求 ， 其 值 可 以 被 覆盖 。 

2) 如 果 操 作 数 不 在 寄存 器 或 重 排序 缓冲 区 中 ， 那 么 它 应 该 被 某 个 功能 单元 以 计算 结果 的 形 
式 输出 。 硬 件 将 帮助 定位 产生 这 个 结果 的 功能 单元 。 当 该 单元 计算 出 结果 时 ， 这 个 结果 将 直接 从 
功能 单元 复制 到 保留 站 ， 而 跳 过 寄存 器 堆 。 

上 面 这 两 步 可 以 有 效 地 利用 重 排序 缓冲 区 和 保留 站 以 实现 寄存 器 重 命名 。 

从 概念 上 讲 ， 可 以 把 动态 调度 流水 线 想象 为 对 程序 数据 流 结构 的 分 析 过 程 。 处 理 器 在 不 违 
背 程序 原 有 的 数据 流 顺 序 的 前 提 下 以 某 种 顺序 执行 各 条 指令 。 这 种 执行 方式 被 称 为 乱 序 执行 ®， 
因为 执行 指令 的 顺序 可 以 与 取 指 的 顺序 不 同 。 

为 了 使 程序 表现 得 像 是 在 一 条 简单 的 顺序 流水 线 上 执行 ， 取 指 和 译 码 单元 必须 能 够 顺序 发 
出 指令 ， 以 记录 程序 中 的 依赖 关系 。 而 提交 单元 也 必须 按照 程序 顺序 将 结果 写 回 寄存 器 堆 和 存 
储 器 。 这 种 保守 的 方案 称 为 顺序 提交 ”。 所 以 当 异 常 发 生 时 ， 处 理 器 可 以 找到 最 后 执行 的 那 条 指 
令 ， 而 只 有 这 条 导致 异常 的 指令 之 前 的 指令 才能 对 寄存 器 状态 进行 修改 。 虽 然 处 理 器 的 前 端 
( 取 指 和 发 射 》 和 后 端 (提交 ) 按照 顺序 操作 指令 ， 各 功能 单元 可 以 在 获得 所 需 数据 的 条 件 下 随 
时 开始 执行 过 程 。 目 前 所 有 的 动态 调度 流水 线 都 采用 顺序 提交 。 


提交 单元 《commit unit) : 位 于 动态 流水 线 和 乱 序 流水 线 中 的 一 个 单元 ， 用 以 决定 何 时 可 以 安全 结果 3 
至 程序 员 可 见 的 寄存 器 和 存储 器 。 0 
合生 总 《resorvation stion)， 功 能 单元 的 缓冲 区 ， 用 来 保存 操作 数 和 操作 。 

缓冲 区 ( reorder buffer) :动态 调度 处 理 器 中 用 于 暂时 保存 执行 结果 的 缓冲 区 ， 等 到 安全 中 结 
果 写 回 寄存 器 或 存储 器 。 的 
乱 序 执行 《out-of-order execution) ， 流 水 线 执行 的 一 种 情况 ， 即 执行 的 指令 被 阻塞 时 不 会 导致 后 面 的 指令 等 待 
顺序 提交 (in-order commit) : 流水 线 执行 的 结果 以 取 指 顺序 写 回程 序 员 可 见 寄存 器 的 一 种 提交 方式 、 


@® DO 0 
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动态 调度 经 常 与 基于 硬件 的 推测 机 制 相 结合 ， 特 别 是 对 分 支 指令 的 推测 。 通 过 对 分 支 指令 
的 方向 进行 推测 ， 动 态 调 度 处 理 器 可 以 在 推测 方向 上 进行 取 指 和 执行 。 由 于 指令 是 顺序 提交 的 ， 
我 们 可 以 在 分 支 指令 及 所 有 推测 执行 的 指令 提交 前 知道 推测 是 否 正确 。 一 个 推测 执行 的 动态 调 
度 流水 线 同 样 可 以 对 装载 指令 的 目的 地 址 进行 推测 、 对 存 取 指令 进行 重 排序 和 利用 提交 单元 避 
免 错误 的 推测 。 在 下 一 节 中 我 们 将 讨论 AMD Opteron X4 ( Barcelona) 处 理 器 的 动态 调度 流水 线 
设计 与 推测 机 制 。 

既然 编译 器 可 以 根据 数据 依赖 关系 调度 代码 ， 你 可 能 会 问 ， 为 什么 还 需要 超标 量 处 理 器 来 
进行 动态 调度 ?这 里 面 主 要 有 三 个 原因 。 

第 一 ， 并 不 是 所 有 的 阻塞 都 是 可 以 事先 知道 的 。 尤 其 是 cache 缺失 会 导致 不 可 预测 的 阻塞 
(参见 第 5 章 )。 动 态 调度 使 得 处 理 器 可 以 调度 并 执行 其 他 无 关 的 指令 以 掩盖 阻塞 。 

第 二 ， 如 果 处 理 颖 采用 动态 分 支 预 测 推测 分 支 的 结果 ， 那 么 由 于 这 些 信息 依赖 于 预测 和 分 
支 指令 的 真实 执行 情况 ， 编 译 器 无 法 得 知 指令 的 精确 顺序 。 采 用 动态 推测 而 不 使 用 动态 调度 ， 会 
极 大 地 限制 可 开发 的 指令 级 并 行 度 (ILP)。 

第 三 ， 由 于 流水 线 延 时 和 发 射 宽度 根据 处 理 串 的 具体 实现 的 不 同 有 很 大 的 差别 ， 所 以 最 佳 
的 编译 代码 顺序 也 并 不 固定 。 例 如 ， 调 度 一 个 相互 依赖 的 指令 序列 的 具体 方式 与 发 射 宽度 和 延 
时 存在 着 密切 关系 。 流 水 线 的 结构 同样 会 影响 循环 展开 的 尝试 ， 才 能 避免 可 能 的 阻塞 。 它 还 会 影 
响 编译 器 进行 寄存 器 重 命名 的 过 程 。 动 态 调度 使 得 硬 传 将 这 些 细 划 屏 藏 起 来 。 因 此 ， 用 户 和 坎 件 
发 行商 就 不 用 针对 同一 指令 集 的 不 同 处 理 器 发 行 相应 的 软件 了 。 同 样 的 ， 以 前 的 代码 也 能 从 更 
新 的 处 理 器 上 获得 好 处 而 不 用 重新 编译 。 

流水 线 和 多 发 射 都 提高 了 指令 的 吞吐 率 并 致力 于 开发 指令 级 并 行 。 然 而 ， 由 于 处 理 器 有 时 
必须 等 待 依赖 关系 明确 后 才能 继续 工作 ， 所 以 程序 中 的 数据 相关 和 控制 相关 往往 限制 了 可 达 性 
能 的 上 限 。 基 于 软件 的 指令 级 并 行 开发 主要 依赖 于 编译 性 来 寻找 依赖 关系 并 尽量 减少 这 些 依 瑚 
关系 可 能 造成 的 不 良 后 果 。 基 于 硬件 的 指令 级 并 行 开 发 主要 依赖 于 流水 线 和 多 发 射 机 制 。 推 测 
执行 可 以 由 硬件 或 编译 器 完成 ， 它 可 以 增加 指令 行 并 行 。 但 是 使 用 时 必须 小 心 ， 因 为 错误 的 推测 
可 能 会 降低 性 能 。 

现代 的 高 性 能 微 处 理 器 可 以 在 一 个 时 钟 周期 内 发 射 多 条 指令 。 遗 憾 的 是 ， 持 续 这 样 的 高 发 
射 速率 是 相当 困难 的 。 例 如 ， 尽 管 我 们 有 一 个 单 时 钟 周期 可 以 发 射 4~6 条 指令 的 处 理 器 ， 只 有 
很 少 的 应 用 程序 能 保持 每 周期 发 射 两 条 以 上 指令 。 这 里 面 主 要 有 两 个 原因 。 

首先 ， 由 于 使 用 了 流水 线 ， 主 要 的 性 能 瓶颈 在 于 那些 不 能 立即 解决 的 相关 性 ， 这 就 限制 了 指 
令 间 的 并 行 度 ， 因 此 也 就 限制 了 发 射 速 率 。 昌 然 对 于 真正 的 数据 相关 而 言 没 有 什么 好 的 解决 方 
法 ， 但 是 一 般 情况 下 硬件 或 编译 器 对 于 相关 是 否 确实 存在 都 不 知道 ， 因 而 也 就 只 能 保守 地 假设 
相关 存在 了 。 例 如 ， 使 用 了 指令 的 程序 由 于 有 更 多 的 内 存 别名 问题 ， 往 往 有 更 大 的 存在 隐 式 相关 
的 可 能 。 反 之 ， 数 组 访问 由 于 有 更 大 的 规则 性 使 得 编译 器 可 以 推测 出 没有 相关 存在 的 情况 。 同 样 
的 ， 不 能 在 编译 期 或 运行 期 被 准确 预测 的 分 支 同 样 会 限制 指令 级 并 行 的 开发 。 一 般 来 说 ， 指 仿 级 
并 行 总 是 有 开发 的 空间 的 ， 但 是 因为 并 行 度 较为 分 散 ( 有 时 可 能 存在 于 上 千 条 指令 之 间 )， 编 译 
器 和 硬件 往往 会 显得 力不从心 。 

其 次 ， 存 储 系统 中 的 缺失 同样 会 使 流水 线 难以 满 负荷 运 转 (这 是 第 5 章 的 主题 )。 尽 管 _ 些 
访 存 引 起 的 阻塞 可 以 被 挤 盖 挤 ， 但 是 有 限 的 指令 级 并 行 度 同样 会 使 阻塞 被 掩盖 的 程度 有 所 下 降 ， 
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功 耗 效率 与 高 级 流水 线 

通过 动态 多 发 射 和 推测 执行 开发 指令 级 并 行 的 负面 问题 是 功 耗 效率 。 每 项 发 明 都 成 功 地 将 
更 多 的 卓 体 管 转 化 为 性 能 ， 但 是 这 种 转化 往往 极其 缺乏 效率 。 因 为 功 耗 墙 的 原因 ， 最 新 的 处 理 器 
是 单 片 多 核 式 的 ， 而 非 其 前 牵 的 深 流 水 线 或 贫 禁 式 推测 。 

尽管 简单 的 处 理 医 没有 复杂 的 处 理 器 那么 快 ， 但 是 在 同样 的 功 耗 下 却 能 得 到 更 高 的 性 能 。 
所 以 当 设 计 的 约束 更 多 来 自 功 耗 而 非 晶体 管 数量 时 ， 人 简单 的 处 理 器 能 在 单 茧 片上 获得 更 高 的 
性 能 。 

图 4-73 给 出 了 一 些 处 理 器 的 流水 线 级 数 、 发 射 宽 度 、 推 测 级 别 、 时 钟 频 率 、 每 芯片 的 核 数 
和 和 功 耗 等 。 注 意 从 单 核发 展 到 多 核 时 流水 线 级 数 和 功 耗 的 减少 。 





lntel 486 


Intel Core . 
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狠 4-73 Intel 和 Sun 公司 一 些微 处 理 器 的 指标 
其 中 ，Pentium 4 的 流水 线 级 数 没有 包括 提交 级 ， 如 果 加 上 提交 级 的 话 ，Pentium 4 的 流水 线 级 数 会 更 深 一 些 。 


精 解 : 提交 单元 负责 寄存 器 堆 和 存储 器 的 更 新 。 一 些 动态 调度 处 理 器 在 执行 过 程 中 即时 更 新 寄存 器 
堆 ， 而 使 用 额外 的 寄存 器 来 实现 重 命名 功能 并 保存 之 前 寄存 器 的 拷贝 直到 更 新 该 寄存 器 的 指令 不 再 是 靠 扒 
测 得 出 的 。 其 他 处 理 器 通常 把 结果 组 存在 重 排序 缓冲 器 中 ， 由 提交 单元 在 随后 更 新 寄存 器 堆 。 在 指令 提交 
之 前 ， 写 内 存 的 数据 必须 先 缓存 在 存储 缓冲 器 中 〈 见 第 5 章 ) 或 重 排序 缓冲 器 中 。 提交 单元 允许 缓冲 器 在 
地 址 和 数据 有 效 时 并 且 store 操作 不 依赖 于 预测 的 分 支 时 写 内 存 。 

精 解 ， 非 阻塞 cache (nonblocking cache) 在 cache 访问 缺失 时 能 够 继续 提供 cache 访问 服务 (参见 第 5 
章 ) ， 它 有 利于 存 取 存储 器 。 为 了 使 指令 在 cache 缺失 时 能 继续 执行 ， 乱 序 执行 处 理 器 需要 非 阻塞 cache 的 
文 持 。 

说 明 下 列 开发 指令 级 并 行 度 的 技术 或 单元 主要 是 基于 硬件 还 是 基于 软件 。 对 某 些 项 来 说 两 者 都 有 可 能 

A. 分 支 预测 

B. 多 发 射 

C. 超 长 指令 字 (VLIW) 

D. 超标 量 

E. 动态 调度 
乱 序 执行 
. 推测 机 制 
. 重 排序 缓冲 区 
I 寄存 器 重 命名 


工人 


4. 11 实例 ，AMD Opteron X4 (Barcelona) 流水 线 
如 同 绝 大 多 数 的 现代 微 处 理 器 一 样 ，x86 微 处 理 器 也 使 用 了 成 熟 的 流水 线 技术 。 如 第 2 章 中 
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所 述 ， 这 些 处 理 器 依然 面临 实现 复杂 的 x86 指令 集 的 挑战 。AMD 和 Intel 都 将 取 到 的 指令 在 内 部 
翻译 成 类 MIPS 指令 ，AMD 称 之 为 RISC 操作 (RISC operation，Rops) ， 而 Intel 称 之 为 微 操作 
(microoperation ) 。 在 AMD Opteron X4 (Barcelona) 中 ， 这 些 RISC 操作 被 一 个 复杂 的 动态 调度 、 
推测 流水 线 执行 ， 并 能 维持 每 个 时 钟 周期 执行 3 个 RISC 操作 的 速度 。 本 节 关 注 的 就 是 这 个 RISC 
操作 流水 线 。 

当 我 们 考虑 复杂 的 动态 调度 处 理 器 的 设计 时 ， 功 能 单元 、cache 和 寄存 器 堆 、 指 令 发 射 和 整 
个 流水 线 控制 的 设计 将 混在 一 起 ， 使 得 把 数据 通路 和 流水 线 分 开 变 得 很 困难 。 因 此 ， 许 多 工程 师 
和 研究 人 员 使 用 术语 微 体 系 结构 -来 描述 处 理 器 内 部 体系 结构 的 细节 。 图 4-74 给 出 了 X4 的 微 体 
系 结构 ， 我 们 重点 关注 用 来 执行 RISC 操作 的 结构 。 


4-74 AMD Opteron X4 的 
微 体 系 结构 

延长 的 队列 允许 最 多 106 条 RISC 操作 
处 于 未 完成 状态 : 包括 24 个 整数 操作 、 
36 个 溯 点 或 SSE 操作 ，44 个 存 / 取 操作 。 
存 取 单 元 实际 上 分 为 两 部 分 ， 第 一 部 分 
处 理 整 数 ALU 单元 的 地 址 计算 ; 第 二 部 
分 处 理 实际 的 存储 器 引用 。 在 功能 单元 
间 有 一 个 扩展 的 旁 路 网 络 。 因 为 流水 线 
是 动态 而 不 是 静态 的 ， 为 了 使 结果 产生 
时 能 与 队列 中 需要 该 结果 的 指令 匹配 ， 


旁 路 是 通过 标记 结果 和 跟踪 源 操作 数 完 


| 





分 析 X4 的 另 一 种 方法 是 观察 一 条 典型 的 指令 执行 将 经 过 哪些 流水 级 。 图 4-75 给 出 了 流水 线 
的 结构 和 一 般 在 每 一 步骤 中 花费 的 时 钟 周期 数 。 当 然 ， 实 际 的 时 钟 周 期 数 会 因 动 态 调度 特性 和 
个 同 RISC 操作 的 需求 而 有 所 变化 。 


RISC 重 排序 
操作 队列 






4-75 Opteron X4 的 流水 级 ， 显 示 了 一 条 典型 的 指令 执行 过 程 及 12 级 整数 
RISC 操作 流水 线 的 主要 步骤 及 其 花费 的 时 钟 周 期 数 
汉 点 执行 队列 的 长 度 为 17 级 。 图 中 也 给 出 了 用 于 RISC 操作 等 待 的 主要 缓存 。 


精 解 : Opteron X4 使 用 重 排序 缓冲 区 和 寄存 器 重 命名 技术 来 解决 反 相 关 和 推测 错误 寄存 器 重 命名 技 


加 ” 微 体系 结构 (microarchitecture) ， 处 理 器 的 组 织 ， 包括 主要 的 功能 单元 及 它们 的 互 连 关系 与 流水 线 控 制 。 
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术 显 式 地 将 处 理 器 中 的 体系 结构 寄存 器 2 ( 在 4 位 版 本 的 x86 体系 结构 中 是 16 个 ) 重 命名 为 一 组 更 大 的 物 
理 寄存 器 集合 (在 X4 中 是 72 个)。X4 使 用 寄存 器 重 命名 技术 来 消除 反 相 关 。 寄 存 器 重 命名 需要 处 理 器 维 
护 体系 结构 寄存 器 和 物理 寄存 器 之 间 的 映射 关系 ， 要 能 指出 哪个 物理 寄存 器 才 是 某 个 体系 结构 寄存 器 的 最 
新 备份 。 通 过 跟踪 已 经 发 生 的 重 命名 ， 寄 存 器 重 命名 提供 了 另 一 种 推测 错误 时 的 恢复 方法 : 简单 地 撤销 所 
有 第 一 条 推测 错误 指令 后 建立 的 所 有 映射。 这 会 使 处 理 器 的 状态 返回 到 最 后 一 条 正确 执行 的 指令 处 ， 并 保 
持 结构 寄存 器 与 物理 寄存 器 之 间 的 正确 映射 关系 。 

判断 下 列表 述 的 正 误 。 

A. Opteron X4 多 发 射流 水 线 直接 执行 x86 指令 。 

B. X4 使 用 了 动态 调度 但 没有 使 用 推测 执行 。 

C. X4 微 体系 结构 中 的 寄存 器 比 x86 所 要 求 的 更 多 。 

D. X4 的 流水 线 级 数 比 早期 Pentium 4 Prescott 的 一 半 还 少 〈 见 图 4-73) 。 
理解 程序 性 能 | 

Opteron X4 同时 使 用 一 个 12 级 的 流水 线 和 贪 禁 多 发 射 来 获取 高 性 能 。 在 保持 背 对 背 操 作 低 
延迟 的 同时 ， 也 消除 了 数据 依赖 的 影响 。 对 运行 在 这 个 处 理 器 上 的 程序 而 言 ， 景 严重 的 潜在 性 能 
”瓶颈 在 哪里 呢 ? 下 面 的 列表 包含 了 一 些 潜在 的 性 能 问题 ， 最 后 三 个 问题 在 任何 高 性 能 流水 线 处 
理 器 中 都 会 以 某 种 形式 出 现 。 

。 使 用 了 不 能 映射 成 儿 条 简单 RISC 操作 的 x86 指令 。 

。 难于 预测 的 分 支 ， 会 导致 预测 错误 时 的 阻塞 和 推测 失败 时 的 重启 。 

。 长 依赖 一 一 典型 情况 是 执行 时 间 很 长 的 指令 或 数据 cache 缺失 

se 因为 存 取 存储 器 《( 见 第 5 章 ) 导致 的 处 理 器 阻塞 。 


本 4. 12 高 级 主题 : 通过 硬件 设计 语言 描述 和 建 模 流水 线 来 介绍 数字 设计 以 及 
更 多 流水 线 示例 

现代 数字 设计 是 用 硬件 描述 语言 和 现代 的 计算 机 辅助 综合 工具 完成 的 ， 其 中 综合 工具 能 使 
用 库 和 逻辑 综合 将 描述 转化 为 具体 的 硬件 设计 。 关 于 这 些 语 言 和 它们 在 数字 设计 中 的 使 用 有 相 
天书 籍 说 明 。 本 节 (在 CD 上) 仅 进行 简单 的 介绍 ， 并 展示 如 何 用 一 种 硬件 设计 语言 (Verilog) 
分 别 从 行为 级 和 可 综合 级 描述 MIPS 控制 。 接 着 还 提供 了 用 Verilog 描述 的 MIPS 五 级 流水 线 行为 
级 柄 型 。 最 初 的 模型 忽略 了 冒险 ， 随 后 增加 的 部 分 着 重 于 支持 转发 、 数 据 冒 险 和 分 支 冒险 所 做 的 
改变 。 

我 们 接着 提供 了 大 量 使 用 单 时 钟 周期 图 形 化 流水 线 表示 的 示意 图 ， 以 帮助 读者 更 好 地 理解 
执行 一 连 串 指令 时 流水 线 的 工作 细节 。 


4. 13 廖 误 与 陷阱 

语 误 : 流水 线 是 一 种 简单 的 结构 。 

本 书证 明了 正确 设计 流水 线 必 须 非常 遵 什 。 我 们 的 另 一 本 教程 《Computer Architecture. A 
Quantitative Approach》 的 第 1 版 尽管 经 过 了 上 百人 的 校对 ， 并 且 曾 经 在 18 个 大 学 的 课堂 上 使 用 
过 ， 它 仍然 有 一 个 流水 线 方面 的 错误 。 直到 有 人 根据 该 书 设计 处 理 器 时 才 发 现 了 这 个 错误 。 用 
Verilog 来 描述 一 个 如 Opteron X4 的 流水 线 需 要 几 千 行 代码 ， 从 中 可 以 看 出 流水 线 的 复杂 性 ， 因 





这 会 导致 阻塞 。 


局 ”体系 结构 寄存 器 (architectural register) : 处理 器 中 的 可 见 寄存 器 。 如 在 MIPS 中 ， 有 32 个 整数 16 个 
点 寄存 器 是 可 见 的 。 整数 寄存 器 和 16 个 溯 
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此 设计 流水 线 必须 非常 小 心 。 

订 误 : 流水 线 概念 的 实现 与 工艺 无 关 。 

当 芯 片上 晶体 管 的 数量 和 速度 决定 五 级 流水 线 是 最 好 的 解决 方案 时 ， 延 迟 分 支 是 一 种 简单 
的 控制 骨 险 的 方法 。 但 对 于 长 流水 线 、 超 标量 执行 和 动态 分 支 预测 ， 延 迟 分 支 就 成 为 多 余 的 方法 
了 。 在 20 世纪 90 年 代 初 期 ， 动 态 流水 线 调 度 需 要 耗费 大 量 资源 并 且 无 法 得 到 很 好 的 性 能 ， 但 随 
着 晶体 管 的 预算 持续 加 倍 和 逻辑 电路 变 得 比 存储 器 更 快 ， 多 个 功能 单元 和 动态 流水 线 变 得 更 加 
实用 。 

陷阱 : 没有 考虑 指令 集 的 设计 反 过 来 会 影响 流水 线 。 

许多 流水 线 中 遇 到 的 困难 都 是 由 指令 集 的 复杂 性 造成 的 ， 例 如 : 

e 指令 长 度 和 指令 运行 时 间 变 化 太 大 会 导致 各 流水 级 的 不 均衡 ， 从 而 阻碍 了 某 个 流水 级 的 运 
行 ， 而 且 它 们 还 会 使 冒险 检测 和 精确 异常 的 实现 复杂 化 。 这 个 问题 已 经 解决 ， 最 初 在 20 世 
纪 80 年 代 后 期 的 DEC VAX 8500 中 ， 采 用 了 微 流 水 线 的 方案 ， 正 如 今天 Opteron X4 所 采用 
的 一 样 。 当 然 ， 在 微 操作 和 实际 指令 间 的 转化 和 一 致 性 维护 上 ， 开 销 依然 是 存在 的 。 

。 复杂 的 寻 址 方法 可 能 引起 很 多 问题 。 更 新 寄存 器 的 寻 址 方法 会 使 冒险 的 检测 复杂 化 。 而 
需要 多 次 访问 存储 器 的 寻 址 方法 会 使 流水 线 的 控制 复杂 化 ， 并 且 难 以 保持 流水 线 平稳 
流动 。 

最 好 的 例子 大 概 是 DEC Alpha 和 DEC NVAX。 通 过 比较 可 以 看 到 ，Alpha 的 新 指令 集 使 得 它 

的 性 能 是 DEC NVAX 性 能 的 两 倍 。 另 一 个 例子 是 Bhandarkar 和 Clark [1991] 使 用 SPEC 基准 测 
试 程序 比较 了 MIPS M/2000 和 DEC VAX 8700， 他 们 得 到 了 如 下 结论 : 尽管 MIPS M/2000 执行 了 
更 多 的 指令 ， 但 是 VAX 的 平均 时 钟 周期 数 是 MIPS 的 2.7 倍 ， 所 以 总 体 上 MIPS 更 快 一 些 。 


4. 14 “本章 小 结 

智慧 十 之 和 八 九 体现 在 恰当 的 时 机 。 

一 一 美国 谚语 

在 这 一 章 我 们 看 到 ， 处 理 器 的 数据 通路 和 控制 通路 的 设计 ， 可 以 从 指令 集 系 统 和 对 工艺 基 
本 特性 的 理解 开始 。 在 4.3 节 ， 我 们 看 到 了 在 指令 集体 系 结构 确定 和 决定 使 用 单 周期 实现 的 基础 
上 ， 如 何 构造 MIPS 处 理 器 的 数据 通路 。 当 然 ， 背 后 的 工艺 也 影响 许多 设计 决策 ， 如 数据 通路 中 
哪些 部 件 可 用 ， 以 及 单 周期 实现 是 否 有 意义 等 。 

流水 线 提高 了 吞吐 率 ， 但 不 能 提高 指令 的 内 在 执行 时 间 (指令 延迟 93); 对 某 些 指 令 而 言 ， 
指令 延迟 与 单 周期 实现 的 延迟 类 似 。 多 发 射 增加 了 额外 的 允许 每 个 时 钟 周期 发 射 多 条 指令 的 数 
据 通 路 硬件 ， 但 是 却 增加 了 有 效 延 迟 。 为 了 减少 简单 的 单 周期 实现 数据 通路 的 时 钟 周 期 ， 提 出 了 
流水 线 技术 。 相 比 之 下 ， 多 发 射 关注 于 减少 每 条 指令 的 平均 时 钟 周 期 数 (CPI) 。 

流水 线 和 多 发 射 都 试 着 开发 指令 级 并 行 。 开 发 更 高 指令 级 并 行 的 主要 限制 因素 是 存在 数据 
相关 和 控制 相关 。 在 软 硬 件 上 都 使 用 调试 和 推测 执行 ， 是 降低 相关 带 来 影响 的 主要 手段 。 

20 世纪 90 年 代 中 期 我 们 开始 使 用 更 长 的 流水 线 、 多 发 射 和 动态 调度 ， 这 些 技 术 帮 助 我 们 维 
持 了 从 20 世纪 80 年 代 以 来 每 年 60% 的 处 理 器 性 能 增长 速度 。 正 如 第 1 章 中 所 提 到 的 ， 这 些微 处 
理 兹 依旧 使 用 顺序 执行 程序 模型 ， 但 是 它们 最 终 会 遇 到 功 耗 墙 。 因 此 ， 工 业界 被 迫 转向 在 更 粕 注 
度 上 开发 并 行 性 的 多 处 理 器 (这 是 第 7 章 的 主题 ) 。 这 种 趋势 也 迫使 设计 者 们 对 90 年 代 中 期 一 
泽 发 明 的 功 耗 -性 能 含义 重新 进行 评价 ， 其 结果 是 在 最 新 的 微 体系 结构 中 使 用 了 更 简单 而 不 是 
复杂 的 流水 线 。 


旺 ”指令 延迟 (instmction iateney ) 执行 一 条 指令 所 真正 花费 的 时 间 。 
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为 了 维持 通过 并 行 处 理 髓 带 来 的 计算 性 能 提高 ，Amdahl 定律 预言 了 系统 中 的 其 他 部 件 会 成 
为 瓶颈 。 这 个 瓶颈 就 是 下 一 章 要 讨论 的 主题 一 一 内 存 系统 。 


篇 4. 15 ”拓展 阅读 
这 一 部 分 放 在 光盘 中 ,讨论 了 第 一 个 流水 线 处 理 器 、 最 早 的 超标 量 处 理 器 、 乱 序 执行 与 推测 
执行 技术 的 发 展 以 及 同时 期 编译 器 技术 的 发 展 。 






4. 16 ”练习 是 
习题 4. 1 
在 基本 的 单 周 期 实现 中 不 同 的 指令 使 用 不 同 的 硬件 单元 。 根 据 如 下 指令 回答 下 列 3 个 问题 。 
解释 


5 regL Rd] ~ Real Rs] + Rool Re 
b. lw Rt, offs (Rs) Reg| Rt] =Meml Reg[ Rs] + Offs] 


4.1.1 [5] <4.1 > 对 上 述 指令 而 言 ， 图 4-2 中 的 控制 单元 将 产生 哪些 控制 信号 ? 
4.1.2 [5] <4.1> 对 上述 指令 而 言 ， 将 用 到 哪些 功能 单元 ? 
4.1.3 [10] <4.1> 娜 些 功能 单元 会 产生 输出 ， 但 输出 不 会 被 以 上 指令 用 到 ? 对 以 上 指令 而 言 ， 哪 些 功能 单 
元 不 产生 任何 输出 ? z 
不 同 单元 有 不 同 的 延迟 时 间 。 在 图 4-2 中 有 七 种 主要 单元 。 对 一 条 指令 而 言 ， 关 键 路 径 (产生 最 长 延 
迟 的 那 条 路 径 ) 上 各 单元 的 延迟 时 间 决 定 了 该 指令 的 最 小 延迟 。 假 设 各 单元 的 延迟 时 间 如 下 表 所 示 ， 回 答 


下 列 3 个 问题 。 










机 


4 工 4 [5] <4 .1> 对 一 条 MIPS 的 与 指令 (AND) 而 言 ， 关 键 路 径 是 什么 ? 
4 工 5 [5] <4.1> 对 一 条 MIPS 的 装载 指令 (LD) 而 言 ， 关 键 路 径 是 什么 ? 
4.1.6 [10] <4.1> 对 一 条 MIPS 的 相等 则 分 支 指令 (BEQ) 而 言 ， 关 键 路 径 是 什么 ? 


习题 4.2 


图 4-2 中 基本 的 单 周 期 MIPS 实现 仅 能 实现 某 些 指令 。 可 以 在 这 个 指令 集中 加 入 新 的 指令 ,但 决定 是 
否 加 入 取决 于 给 处 理 器 的 数据 通路 和 控制 通路 增加 的 复杂 度 。 对 下 表 中 的 新 指令 而 言 ， 试 回答 下 列 3 个 
问题 。 








$$ 解 杰 
5 real Rd] “Regl Ro] + Reo Rt + Reof Ro 
b. | sll Rt,Rd, Shift Reg[Rdj =Reg[ Rt] << Shift 太 移 


4.2.1 110] <4.1> 对 上 述 指令 而 言 ， 哪 些 已 有 的 单元 还 可 以 被 使 用 ? 
4.2.2 [10] <4.1> 对 上 述 指令 而 言 ， 还 需要 增加 刀 些 功能 单元 ? 
423 [10]<4.1> 为 了 支持 这 些 指令 ， 需 要 在 控制 单元 增加 哪些 信号 ? 
当 处 理 器 设计 者 考虑 改进 处 理 器 数据 通路 时 ， 往 往 要 考虑 性 能 与 成 本 的 折 中 。 假 设 我 们 从 图 4-2 的 数 
捍 通 路 出 发 ， 其 中 指令 存储 器 、 加 法 器 、 多 选 器 、ALU、 寄 存 器 堆 、 数 据 寄存 器 和 控制 单元 的 延迟 分 别 为 
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400 ps、100 ps、30 ps 、120 ps 、200 ps 、350 ps 和 100 ps ， 相 应 的 成 本 分 别 为 1000、30、10、100、200、2000 
和 500。 试 根据 表 中 的 改进 分 别 回 答 下 列 问 题 。 
优势 


— 加 法 器 
a “| 更 快 的 加 法 器 加 法 单元 -20 ps | 每 个 加 法 单元 +20 人 清醒 全 站 法 


需要 更 少 的 load 和 store 指令 。 这 
b. 更 大 的 寄存 器 堆 寄存 器 堆 + 100 ps 寄存 器 堆 +200 将 导致 指令 数 减少 5S% 


4.2.4 【10] <4.1 > 改进 前 后 的 时 钟 周期 分 别 是 多 少 ? 
4.2.5 [10] <4.1 > 改进 后 将 获得 多 大 的 加 速 比 ? 
4.2.6 [10] <4.1> 比较 改进 前 后 的 性 价 比 。 


习题 4.3 
根据 下 表 中 的 逻辑 单元 分 别 回 答 下 列 问题 。 
得 单 元 
a 含 4 个 8 位 字 的 小 指令 存储 器 
b. 含 2 个 8 位 寄存 器 的 小 寄存 器 堆 


4.3.115] <4.1, 4.2 > 这 个 逻辑 单元 只 包含 组 合 逻 辑 还 是 只 包含 寄存 器 ? 还 是 两 者 都 包含 ? 
4.3.2 [20] <4.1, 4.2 > 仅 使 用 与 门 、 或 门 、 非 门 和 DD 触发 器 实现 这 个 逻辑 单元 。 
4.3.3 [10] <4.1, 4.2 > 当 用 的 与 门 和 或 门 必须 都 是 二 输入 时 ， 重 做 习题 4. 3. 2。 
数字 逻辑 的 延迟 和 成 本 取决 于 构成 它 的 基本 单元 ( 门 ) 。 根 据 下 表 的 两 种 情况 分 别 回答 下 列 问题 。 





4.3.4 [5] <4.1, 4.2 > 习题 4.3.2 中 你 的 实现 延迟 是 多 少 ? 
4.3.5 [5] <4.1, 4.2> 习 题 4.3.2 中 你 的 实现 成 本 是 多 少 ? 
4.3.6 [20] <4.1, 4.2 > 试 着 重新 设计 以 最 小 化 延迟 ， 再 重新 设计 以 最 小 化 成 本 ， 最 后 比较 这 两 种 设计 。 


习题 4.4 


当 用 数字 电路 实现 逻辑 表达 式 时 ， 经 常 需要 使 用 可 用 的 未 辑 门 实现 不 可 用 的 逻辑 门 的 功能 。 试 根据 下 
表 的 两 种 情况 分 别 回 答 下 列 问题 。 






| 控制 信号 1 控制 信号 2 
a (( (A OR B} OR Cc) oR 
(A AND C)) OR (A AND B) (A OR B) ORC 
b (( {A OR B) XOR B} OR 
| A AND B 


(A OR C)) OR (A AND B) 
441 [5] <4.2> 使 用 非 门 和 二 输入 与 门 、 或 门 和 异 或 门 实现 控制 信号 1。 注意 不 要 试 着 “优化 ” 原 表 
达 式 。 
4.42 [10] 假设 所 有 门 的 延迟 相同 。 习 题 44.1 中 你 的 电路 关键 路 径 有 多 长 〈 几 个 门 )? 
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4.4.3 [10] <4.2 > 当 需 要 实现 多 个 逻辑 表达 式 时 ， 通 过 在 多 个 逻辑 表达 式 中 使 用 同一 信和 号 来 减 小 实现 代 
价 是 有 可 能 的 。 重 做 习题 4. 4. 1， 但 这 次 要 实现 控制 信号 1 和 控制 信号 2， 试 着 在 实现 两 个 表达 式 时 


共享 某 些 信号。 
假设 可 以 使 用 非 门 、 二 输入 与 、 二 输入 或 和 二 输入 异 或 门 。 试 根据 下 表 的 两 种 延迟 和 成 本 情况 分 别 回 


管 下 列 问题 。 
条 | 二 输入 或 二 输入 只 或 站 


延迟 





4.4.4 [10] <4.2 > 习题 4.4.3 中 你 的 电路 关键 路 径 长 度 为 多 少 ? 
4.4.5 [10] <4.2 > 习题 4.4.3 中 你 的 电路 成 本 为 多 少 ? 
4.4.6 [10] <4.2 > 习题 4.4.3 中 同时 实现 两 个 控制 信号 和 单独 实现 相 比 ， 能 节约 多 少 成 本 ? 


习题 4. 5 


这 个 习题 的 目的 是 帮助 读者 熟悉 时 序 罗 辑 电 路 的 设计 和 操作 。 试 根据 下 表 两 个 ALU 操作 回答 以 下 两 个 
问题 。 


ALU 操作 
加 1 (X+1) 
b | 左 移 2 位 (X <<2) 


4.5.1 [20] <4.2 > 设计 一 个 电路 申 行 实现 该 操作 ,该 电路 的 数据 输入 与 输出 均 为 1 位 ， 从 最 低 有 效 位 开 
始 。 在 这 个 串 行 实现 中 ， 电 路 一 位 一 位 地 处 理 输 入 ， 也 一 位 一 位 地 生成 输出 。 例 如 ， 一 个 串 行 的 与 
电路 就 是 一 个 简单 的 与 门 。 在 第 N 个 周期 输入 操作 数 的 第 N 位 ， 生 成 结果 的 第 N 位 。 除 了 数据 输 
人 和信， 该 电路 还 有 一 个 时 钟 输入 (Clk) 和 一 个 “开始 ”信和 号 输入 ,“ 开 始 ” 信 号 为 1 时 ， 表 示 当 前 为 
该 操作 的 第 1 个 周期 。 在 设计 中 只 可 以 使 用 D 触发 器 、 非 门 、 与 门 、 或 门 和 异 或 门 。 
4.5.2 [20] <4.2 > 重 做 习题 4.5. 1， 这 次 要 求 一 次 对 两 位 进行 操作 。 
假设 下 表 中 的 数字 逻辑 单元 可 用 ， 试 根据 两 种 不 同 的 延迟 和 成 本 情况 回答 以 下 四 个 问题 。 





D 触发 器 的 延迟 指 的 是 建立 时 间 。D 触发 器 的 数据 输入 必须 在 时 钟 沿 到 来 之 前 就 准备 好 要 存 人 D 触发 
带 的 值 。 
4.5.3 [10] <4.2 > 习题 4.5.1 中 你 的 设计 的 时 钟 周期 是 多 少 ? 完成 一 次 32 位 的 操作 需要 多 长 时 间 ? 
4.5.4 [10] <4.2 > 习题 4.5.2 中 你 的 设计 的 时 钟 周期 是 多 少 ?对 一 次 32 位 的 操作 而 言 ， 这 个 设计 比 习题 
4.5.1 中 的 设计 要 快 多 少 ? 
455 [10] <4.2> 分 别 计算 习题 4. 5. 1 和 习题 4 5. 2 中 设计 的 成 本 。 
4.5.6 [5]<4.2> 分 别 计算 习题 4.5. 1 和 习题 4.5.2 中 设计 的 性 价 比 。 其 中 性 能 可 以 用 完成 一 次 32 位 操作 
所 需 时 间 的 倒数 来 计算 。 


习题 4.6 
下 表 给 出 了 实现 处 理 器 数据 通路 的 逻辑 单元 延迟 。 试 根据 下 表 的 两 种 情况 分 别 回答 下 列 问题 。 
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FT 
Am | om | am | ml 20m | 0m | am 





4.6.1 [10] <4.3 > 如 果 处 理 器 只 需 做 连续 取 指 这 一 件 事 〈 见 图 4-6) ， 那 么 时 钟 周 期 是 多 少 ? 
4.6.2 [10] <4.3 > 考虑 一 个 与 图 4-11 类 似 的 数据 通路 ， 但 是 假设 处 理 器 只 需 处 理 无 条 件 相 对 跳 转 指令 ， 
那么 时 钟 周期 是 多 少 ? 
4.6.3 [10] <4.3 > 重 做 习题 4. 6.2， 但 这 次 假设 只 需 处 理 有 条 件 相 对 跳 转 指令 。 
根据 下 表 的 两 种 数据 通路 的 逻辑 单元 分 别 回答 下 列 问题 。 


单元 
a, 加 4 (对 PC) 
b. 数据 存储 器 


4.6.4 [10] <4.3 > 哪些 类 型 的 指令 需要 该 单元 ? 

4.6.5 [20] <4.3 > 对 哪些 类 型 的 指令 而 言 ， 该 单元 位 于 关键 路 径 上 ? 

4.6.6 [10] <4.3 > 假设 仅 需 支 持 beq 指令 和 add 指令 ， 讨论 该 单元 的 延迟 变化 对 处 理 器 时 钟 周期 的 影 
响 。 假 定 其 他 单元 的 延迟 不 变 。 


习题 4. 7 


本 题 讨论 数据 通路 中 不 同 的 单元 延迟 对 整个 数据 通路 时 钟 周期 的 影响 ， 以 及 指令 如 何 利 用 不 同 的 数据 
通路 单元 。 根 据 下 面 的 两 种 延迟 情况 ， 分 别 回答 下 列 问题 。 





4.7.1 [10] <4.3 > 如 果 仅 需 支持 ALU 类 指令 (如 adad、and 等 ) ， 处 理 器 的 时 钟 周 期 是 多 少 ? 

4.7.2 [10] <4.3> 如 果 仅 需 支 持 1w 指令 ， 时 钟 周 期 是 多 少 ? 

4.7.3 [20] <4.3 > 如 果 必 须 支 持 add、beq、lw 和 sw 指令 ， 时钟 周期 是 多 少 ? 
假设 各 类 型 指令 所 占 比 例如 下 表 所 示 ， 试 根据 下 表 的 两 种 情况 分 别 回 答 下 列 问题 。 





47.4 [10j <4.3 > 数据 存储 器 平均 用 了 多 少时 钟 周期 ? 
4.7.5 [10] <4.3 > 符号 扩展 电路 的 输入 平均 用 了 多 少时 钟 周期 ? 在 未 用 到 该 输入 的 其 他 时 间 ， 符 号 扩展 


电路 在 做 什么 ? 

4.7.6 [10] <4.3 > 如 果 可 以 将 数据 通路 上 某 个 单元 的 延迟 减少 10% ， 应 该 减少 哪个 单元 的 延迟 ? 改进 后 
整个 处 理 器 的 加 速 比 是 多 少 ? | 

习题 4. 8 


在 制造 硅 芯 片 时 ， 材 料 〈 例 如 ， 硅 ) 的 缺陷 和 制造 错误 会 导致 电路 失效 。 一 个 非常 普遍 的 问题 是 一 根 
线 上 的 信号 会 对 相 邻 线 上 的 信号 产生 影响 ， 这 被 称 为 串扰 ， 有 一 类 串扰 问题 是 这 样 的 ， 某 些 线 上 的 信和 号 为 
常 值 ( 如 电源 线 ) ， 该 线 附 近 的 线 也 被 固定 为 0 (stuek-at-0) 或 1 (stuck-at-1)。 试 根据 下 表 的 两 种 缺陷 
(信和 号 来 自 图 4-24) 分 别 回 答 下 列 问题 。 
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有 问题 的 信号 
a 指令 存储 器 ， 输 出 指令 第 7 位 
b. 控制 单元 ， 输 出 信号 MemtoReg 


4.8.1 [10」<4.3,， 44> 假 设 这 样 测试 处 理 器 的 缺陷 : 先 给 PC、 寄 存 器 堆 、 数 据 和 指令 存储 器 中 设置 一 些 
值 《 可 以 自己 选择 ) ， 执 行 一 条 指令 ， 然 后 读 出 PC 、 寄 存 器 堆 和 存储 器 中 的 值 ; 最 后 检查 这 些 值 以 
判断 处 理 器 中 是 和 否 存在 缺陷 。 你 能 设计 一 个 方案 检查 该 信号 上 是 否 有 固定 为 0 缺陷 吗 ? 

4.8.2 [10j <4.3, 4.4> 重 做 习题 4.8.1， 这 次 检查 固定 为 1 缺陷 。 你 能 只 设计 一 个 测试 方案 同时 检查 固定 
为 0 缺陷 和 固定 为 1 缺陷 吗 ? 如 果 可 以 ， 请 解释 如 何 实现 ; 如 果 不 能 ， 请 说 明理 由 。 

4. 8.3 [60] <4.3，4.4> 如 果 我 们 知道 一 个 处 理 器 在 该 信号 上 有 一 个 固定 为 1 缺陷 ， 它 还 能 用 吗 ? 为 了 使 
这 个 处 理 融 仍然 可 用 ， 我 们 必须 将 原来 能 在 正常 MIPS 处 理 器 上 运行 的 程序 作 一 些 变换 ， 使 之 可 以 在 
这 个 处 理 器 上 运行 。 假 设 指令 存储 器 和 数据 存储 器 都 很 大 ， 足 够 容纳 变换 后 的 程序 。 提 示 : 将 因为 
该 缺陷 不 能 用 的 指令 蔡 换 为 一 系列 能 用 的 指令 ， 这 一 系列 指令 与 原 指令 功能 相同 。 

根据 下 表 的 缺陷 分 别 回 答 下 列 问题 。 


缺陷 
a. 固定 为 1 
b. 如 果 指 令 的 第 31 ~ 26 位 全 为 0， 则 男 定 为 G0， 否则 无 缺 陶 


4.8.4 [10] <4.3, 4.4> 重 做 习题 4. 8. 1, 这 次 检测 控制 信号 MemRead 是 否 存 在 该 缺陷 ? 

4.8.5 [10] <4.3，4.4> 重 做 习题 4 8. 1， 这 次 检测 控制 信号 Jump 是 否 存在 该 缺陷 ? 

不 8.6 [40] <4.3, 4.4 > 使 用 习题 4.8.1 中 描述 的 测试 方案 ， 可 以 一 次 对 几 个 不 同 的 信号 进行 测试 ， 但 _- 
般 来 说 不 可 能 同时 测试 到 所 有 信号 。 试 着 设计 一 系列 方案 对 所 有 多 选 器 输出 的 该 缺陷 进行 测试 (五 
个 多 选 器 输出 的 每 一 位 都 要 测试 到 ) 。 尽 量 使 用 较 少 的 测试 方案 。 


习题 4.9 
本 习题 讨论 特定 指令 在 单 周期 数据 通路 中 的 操作 。 根 据 下 表 中 的 MIPS 指令 分 别 回答 下 列 问题 。 
指令 
lw $1,40 ($6) 
b. Label: bne $1, $2,Label 


4.9.1 [10] <4.4 > 该 指令 字 的 值 是 多 少 ? 
4.9.2 [10] <4.4> 提 供给 寄存 器 堆 “ 读 寄存 器 1” 端口 的 寄存 器 号 是 多 少 ? 该 寄存 器 真 的 被 读 了 吗 ? 对 于 
“ 读 寄 存 器 2” 呢 ? 
4.9.3 [10] <4.4 > 提供 给 寄存 器 堆 “ 写 寄存 器 ” 端口 的 寄存 髓 号 是 多 少 ? 该 寄存 器 真 的 被 写 了 吗 ? 
不 同 的 指令 需要 设置 数据 通路 上 不 同 的 控制 信号 。 根据 下 表 的 两 种 控制 信号 情况 分 别 回 答 下 列 问题 
(参考 图 4-24) 。 


控制 信和 号 1 控制 信号 2 


RegDst MemRead 
b. RegWrite MemRead 


4.9.4 [20] <4.4> 对 该 指令 而 言 ， 这 两 个 控制 信号 的 值 应 该 是 多 少 ， 

4.9.5 [20] <4.4> 对 图 4-24 中 的 数据 通路 而 言 ， 国 出 控制 单元 中 实现 第 一 个 信号 的 部 分 电路 图 。 假 设 我 
们 仅 需 支持 1w、sw、beq、add 和 j (jump) 指令 。 

426 [20] <4.4> 重 做 习题 4.9.5, 这 次 两 个 信和 号 都 要 实现 。 


262 . 第 4 章 处 理 器 


习题 4. 10 
本 题 讨论 处 理 器 时 钟 周 期 与 控制 单元 设计 之 间 的 相互 影响 。 根 据 下 表 的 两 种 数据 通路 单元 延迟 情况 分 
别 回 答 下 列 问题 。 





4 10.1 [10] <4.2, 4.4> 为 了 避免 增加 图 4-24 中 数据 通路 的 关键 路 径 长 度 ， 留 给 控制 单元 产生 MemWrite 


信号 的 时 间 有 多 人 少 ? 
4.10.2 [20] <4.2，4.4> 图 4-24 中 哪个 控制 信号 最 不 关键 ， 控 制 单元 需要 在 多 长 时 间 内 产生 该 信号 以 避 
免 其 成 为 关键 路 径 ? 
4. 10.3 [20] <4.2, 4.4> 图 4-24 中 哪个 控制 信号 最 关键 ， 控 制 单元 需要 在 多 长 时 间 内 产生 该 信号 以 避免 
其 成 为 关键 路 径 ? 
假设 控制 单元 产生 控制 信号 的 时 间 如 下 表 所 示 ， 试 根据 表 中 的 两 种 情况 回答 下 列 问题 。 


RegWnte 


om | mom | 全 | 


1400 ps 





4. 10.4 [20] <4.4 > 处 理 器 的 时 钟 周期 为 多 少 ? 

4. 10.5 [20] <4. 4 > 如 果 你 可 以 加 速 控制 信号 的 产生 ， 但 加 快 一 个 控制 信号 5 ps 的 代价 是 处 理 器 成 本 增加 18 。 
那么 为 了 最 大 化 性 能 你 会 加 速 哪个 控制 信号 ? 这 种 性 能 改进 的 代价 是 多 少 钱 ? 

4 10.6 [30] <4.4 > 如 果 一 个 处 理 器 的 成 本 已 经 很 高 。 那 么 我 们 需要 在 维持 处 理 器 性 能 的 同时 降低 其 成 本 ， 
面 不 是 像 习 题 4. 10. 5 中 所 作 的 那样 为 提高 它 的 性 能 而 买单 。 如 果 你 可 以 使 用 更 慢 的 逻辑 来 实现 对 
信号 的 控制 ， 并 且 单 个 控制 信号 每 减 慢 $ ps ， 处 理 器 成 本 就 可 以 节省 1 美元 ,那么 在 保持 处 理 器 性 
能 的 同时 ， 你 会 减 慢 哪些 控制 信号 ， 并 且 减 慢 多 少 来 降低 成 本 ? 


习题 4. 11 
本 题 讨 论 单 周期 数据 通路 中 指令 的 执行 细节 。 根 据 表 中 的 两 种 指令 字 情 况 回答 下 列 问题 。 


指令 字 
a. | 10001100010000110000000000010000 
b. 00010000001000110000000000001100 


4 1.1 [5] <4.4 > 对 该 指令 字 而 言 ， 符 号 扩展 单元 和 左 移 两 位 单元 (图 4-24 的 左上 角 ) 的 输出 是 什么 ? 
4.11.2 [10] <4.4 > 对 该 指令 字 而 言 ，ALU 控制 单元 的 输入 是 什么 ? 
4.11.3 [10] <4.4 > 该 指令 执行 后 的 新 PC 值 是 什么 ? 在 图 4-24 中 粗 线 决定 该 新 PC 值 的 路 径 。 

下 列 问 题 假设 数据 存储 器 中 的 值 是 全 零 并 且 寄 存 器 堆 中 的 初 值 如 下 表 所 示 ， 试 根据 表 中 的 两 种 情况 回 
答 下 列 问 题 。 





给 出 每 个 多 选 器 数据 输出 的 值 。 
， 给 出 ALU 和 两 个 加 法 器 数据 输出 的 值 。 


4.11.4 [10] <4.4> 对 给 
4.11.5 | 10] <4.4 > 对 给 
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4.11.6 [10] <4.4> 对 给 定 的 指令 字 和 寄存 器 堆 初 值 ， 给 出 寄存 器 堆 所 有 输入 信号 的 值 。 


习题 4. 12 


本 习题 讨论 流水 线 对 处 理 器 时 钟 周 期 的 影响 。 表 中 给 出 了 数据 通路 中 不 同 阶段 延迟 的 两 种 情况 ， 试 根 
据 这 两 种 情况 分 别 回 答 下 列 问题 。 





4.12.1 [5] <4.5 > 流水 线 处 理 器 与 非 流水 线 处 理 器 的 时 钟 周期 分 别 是 多 少 ? 
4. 12.2 [10] <4.5 > 1Lw 指令 在 流水 线 处 理 器 和 非 流 水 线 处 理 器 中 的 总 延迟 分 别 是 多 少 ? 
4.12.3 [10] <4.5 > 如果 可 以 将 原 流 水 线 数据 通路 的 一 级 划分 为 两 级 ， 每 级 的 延迟 是 原 级 的 一 半 ， 那 么 你 
会 选择 哪 一 级 进行 划分 ? 划分 后 处 理 器 的 时 钟 周期 为 多 少 ? . 
假设 处 理 器 执行 的 指令 比例 如 下 表 两 种 情况 所 示 ， 试 根据 每 种 情况 分 别 回 答 下 列 问题 。 





4 12.4 [10」 <4.5 > 假设 没有 阻塞 和 冒险 ， 数 据 存储 器 的 利用 率 是 多 少 ( 占 总 周期 数 的 百分比 )? 

4.12.5 [101」 <4.5 > 假设 没有 阻塞 和 冒险 ,寄存器 堆 的 写 寄 存 器 端口 的 利用 率 是 多 少 ? 

4.12.6 [30] <4.5 > 假设 一 种 多 周期 的 处 理 器 设计 ， 其 中 每 条 指令 需要 多 个 时 钟 周期 完成 ， 但 上 一 条 指令 
完成 前 不 取 下 一 条 指令 。 在 这 种 设计 中 ， 指 令 仅 经 过 其 所 需 的 阶段 (例如 ， 存 储 指令 仅 需 4 个 时 钟 
周期 ， 因 为 其 不 需要 WB 阶段 ) 。 比 较 单 周期 设计 、 多 周期 设计 和 流水 线 设计 三 者 的 时 钟 周期 和 总 
执行 时 间 。 


习题 4. 13 


本 习题 讨论 数据 相关 如 何 影 响 4 5 节 中 基本 五 级 流水 线 的 运行 。 试 根据 下 表 的 两 种 指令 序列 情况 分 别 
回答 下 列 问题 。 









指令 序列 


lw $1,40 ($6) 
add $6, $2, $2 
Sw $6,50 ($1) 


4.13.1 [10] <4.5 > 指出 指令 序列 中 存在 的 相关 及 其 类 型 。 
4.13.2 [10」 <4.5 > 假设 该 流水 线 处 理 器 没有 转发 ， 指 出 指令 序列 中 存在 的 冒险 并 加 入 nop 指令 以 消除 
冒险 。 
4.13.3 [10] <45> 假 设 该 流水 线 处 理 器 中 有 充分 的 转发 。 指 出 指令 序列 中 存在 的 冒险 并 加 入 nop 指令 以 
消除 冒险 。 
根据 下 表 的 两 种 时 钟 周 期 情况 ， 分 别 回 答 下 列 问题 










Jw $5, -16(85) 
Sw $5, ~-16 ($5) 
add $5, $5, $5 






仅 ALU 至 ALU 的 转发 





4 13.4 [10」 <4.5 > 该 指令 序列 在 无 转发 和 有 充分 的 转发 时 总 执行 时 间 分 别 是 多 少 ? 后 者 相对 于 前 者 的 加 
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速 比 是 多 少 ? 
4. 13.5 [10] <4.5 > 如 果 仅 有 ALU 至 ALU 的 转发 (没有 从 MEM 到 EX 的 转发 ) ， 如 何 加 入 nop 指令 以 消除 


可 能 的 冒险 ? 
4. 13.6 [10] <4.5> 该 指令 序列 在 仅 有 ALU 至 ALU 的 转发 时 总 执行 时 间 分 别 是 多 少 ? 与 无 转发 的 情况 相 


比 ， 加 速 比 是 多 少 ? 


习题 4. 14 
本 习题 讨论 结构 冒险 、 控 制 冒 险 和 ISA 设计 如 何 影 响 流水 线 执行 。 根 据 下 表 的 两 个 MIPS 代码 片段 分 别 
回答 下 列 问题 。 









指令 序列 
lw $5, -16({8$5) 
Sw $4, -16($4) 
lw $3, -20 ($4) 
beq $2, $0,Label ;Assume $21= $0 
add $5, $1, $4 





iw $1,40 ($6] 
beq $2, $0,Label ;Assume $2 == $0 
sw $6,50 ($2) 
Label: add $2, $3, $4 
SW $3,50 ($4) 








4.14.1 [10] <4.5 > 假设 所 有 的 分 支 都 被 正确 预测 (控制 冒险 完全 被 消除 ) 且 没 有 使 用 延迟 时 间 槽 ， 并 且 
只 有 一 个 存储 器 〈 既 存储 指令 又 存储 数据 ) 。 如 果 一 个 时 钟 周 期 内 同时 取 指 和 取 数 据 的 话 就 会 发 生 
结构 冒险 。 为 保证 前 进 ,该 冒险 必须 始终 以 有 利于 取 数 指令 的 方式 解决 。 该 指令 序列 在 仅 有 一 个 存 
储 器 的 五 级 流水 线 中 执行 的 总 时 间 是 多 少 ? 我 们 知道 持 人 人 nop 指令 可 以 消除 数据 冒险 ， 可 以 用 同 
样 的 方法 消除 这 里 的 结构 冒险 吗 ? 为 什么 ? 

4.14.2 [20] <4.5 > 假设 所 有 的 分 支 都 被 正确 预测 (控制 冒险 完全 被 消除 ) 且 没 有 使 用 延迟 时 间 档 。 如 果 
我 们 改变 存 取 指令 的 格式 , 仅 使 用 寄存 器 (不 含 偏 移 地 址 ) 进行 寻 址 ， 那 么 这 些 指令 不 再 需要 使 
用 ALU。 结果 是 MEM 级 和 EX 级 可 以 重生 成 一 级 ， 整 个 流水 线 也 就 成 为 四 级 。 改 变 该 代码 以 适应 
上 述 ISA 的 改变 。 假 设 这 个 改变 不 影响 时 钟 周期 ， 对 该 指令 序列 而 言 ， 这 个 改变 造成 的 加 速 比 是 
多 少 ? 

4.14.3 [10j <4.5> 假 设 在 分 支 时 进行 阻塞 是 没有 使 用 延迟 时 间 槽 ， 那 么 在 ID 级 确定 分 支 方向 相对 于 在 
EX 级 确定 分 支 方向 的 加 速 比 是 多 少 ? 

根据 下 表 中 不 同 流水 级 的 两 种 延迟 情况 ， 试 分 别 回答 下 列 问题 。 





4.14.4 [10] <4.5 > 在 给 定 的 流水 级 延迟 下 ， 重 做 习题 4.14.2， 考 虑 可 能 的 时 钟 周期 变化 。 如 果 EX 级 和 
MEM 级 重合 起 来 ， 大 部 分 时 候 它们 可 以 并 行 工作 。 这 样 重 餐 后 的 EX/MEM 级 的 延迟 是 原来 两 级 的 
较 大 者 ， 不 能 并 行 工作 时 延迟 还 要 再 加 20 ps。 

4.14.5 [10j <4.5> 在 给 定 的 流水 级 延迟 下 ， 重 做 习题 4 14.3， 考 虑 可 能 的 时 钟 周期 变化 。 假设 分 支 方向 
判断 从 EX 级 移 到 了 D 级 时 ，ID 级 的 延迟 增加 50% 而 EX 级 的 延迟 减少 10 pso 

4 14.5 |10] <4.5> 假 设 在 分 支 时 进行 阻塞 日 没有 使 用 延迟 时 间 槽 ， 如 果 beq 指令 的 地 址 计算 移 到 MEM 
级 ， 时 钟 周期 将 变 为 多 少 ? 该 指令 序列 的 总 执行 时 间 将 变 为 多 少 ? 加 速 比 是 多 人 少 ? 假设 分 支 方 向 判 
断 从 EX 级 移 到 MEM 级 时 ，FX 级 的 延迟 减少 20 ps 而 MEM 级 的 延迟 不 变 。 


习题 4. 15 
本 习题 讨论 指令 集 对 流水 线 设计 的 影响 。 试 根据 下 表 的 两 条 新 指令 回答 下 列 问题 ， 
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bezi (Rs)， Label if Mem[ Rs| =0 then PC=PC+ODFfs 


swi Ra,Rs (Rt) Mem[ Rs +Rt]=Ra 





4.1S.1 [20] <4.5 > 为 了 将 这 条 新 指令 增加 到 MIPS 指令 集 ， 必 须 对 流水 线 数据 通路 做 什么 改动 ? 
4.15.2 [10] <4.5 > 需要 在 习题 4. 15.1 的 数据 通路 上 增加 哪些 控制 信和 号 ? 
4.15.3 [20] <4.5, 4.13 > 对 新 指令 的 支持 是 否 会 引入 新 的 冒险 ? 已 有 冒险 导致 的 阻塞 是 否 会 更 加 严重 ? 
4.15.4 [10] <4.5, 4.13 > 给 出 一 种 能 用 上 新 指令 的 情况 和 一 个 能 用 该 指令 替代 的 MIPS 指令 序列 。 
4.15.5 [10] <4.5, 4.11, 4.13 > 假设 这 条 指令 已 经 存在 于 原 指令 集中 ， 试 解释 其 在 新 处 理 器 如 AMD Bar- 
celona 中 将 如 何 执行 

本 练习 的 上 一 个 问题 假定 每 条 新 指令 的 使 用 都 替换 一 定数 量 的 原 有 指令 ， 在 给 定数 量 的 原 有 指令 中 仅 
会 进行 一 次 替换 ， 并 且 每 次 新 指令 执行 时 ， 给 定数 量 的 额外 停顿 周期 都 将 计 入 程序 的 执行 时 间 。 试 根据 表 
中 的 两 种 情况 分 别 回 答 下 列 问题 。 


替代 的 指令 数 





4.15.6 [101 <4.5 > 加 入 新 指令 后 取得 的 加 速 比 为 多 少 ? 假设 原 程序 〈 不 含 新 指令 ) 的 CPI 为 1 


习题 4. 16 
试 根据 表 中 的 两 条 MIPS 指令 分 别 回答 下 列 问题 。 


指令 
a | lw $1,40 ($6) 
b. add $5, $5, $5 


4.16.1 [5] <4.6> 指 令 执行 时 ， 两 级 流水 线 之 间 的 寄存 器 中 的 内 容 是 什么 ? 
4.16.2 [5] <4.6 > 哪些 寄存 器 是 需要 读 的 ? 实际 上 读 了 哪些 寄存 器 ? 
4.16.3 [5] <4.6 > 这 条 指令 在 EX 级 和 MEM 级 分 别 做 了 什么 ? 
根据 下 表 的 两 个 循环 分 别 回答 下 列 问 题 。 假 设 分 支 被 完美 地 预测 (没有 因 控 制 置 险 导 致 的 阻塞 ) 没 
有 延迟 时 间 模 ， 而 且 流 水 线 有 完全 的 转发 支持 ， 并 且 循 环 在 退出 前 运行 了 很 多 次 。 









: lw $1,40 ($6) 
add $5, $5, $8 
add $6, $6, $8 
sw $1,20 ($5) 
beq $1, $0,Loop 


: add $1, $2, $3 
Sw $0,0 ($1) 
Sw $0,4($1) 
add $2, $2, $4 
beq $2, $0,Loop 









《> 出 循环 第 三 次 扶 行 的 流水 线 图 ， 从 取出 循环 的 首 条 指令 开始 至 取出 下 次 循环 的 首 条 
令 结束 。 给 出 这 段 时 间 内 流水 线 中 的 所 有 指令 。 

4. 16. 5 1 10] <4.6 > 在 这 段 时 间 内 有 百 分 之 多 少 五 级 流水 线 都 在 做 有 用 的 工作 ? 

4.16.6 [10] <4.6 > 在 第 三 次 循环 的 首 条 指令 被 取 指 时 ，IF/ID 寄存 器 中 的 内 容 是 什么 。 


了 习题 4. 17 
假设 流水 线 处 理 器 执行 指令 的 比例 如 下 表 所 示 ， 试 根据 每 种 情况 分 别 回答 下 列 问题 ， 
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4.17.1 [5] <4.6> 假 设 不 发 生 阻 塞 旦 所 有 条 件 分 支 有 60% 发 生 ，EX 级 的 分 支 加 法 器 生成 的 值 有 多 少时 间 
被 真正 用 到 《以 百分比 表示 )? 
4.17.2 [5] <4.6> 假 设 不 发 生 阻 塞 ， 同 一 周期 用 到 寄存 器 堆 的 三 个 端口 (两 个 读 端口 和 一 个 写 端 口 ) 的 
时 候 有 和 多少 【〔( 以 百分比 表示 )? 
4.17.3 |5] <4.6> 假 设 不 发 生 阳 塞 ,， 用 到 数据 存储 器 的 时 候 有 多 少 【( 以 百分比 表示 )? 
图 4-33 中 不 同 的 流水 级 有 不 同 的 延迟 ， 并 有 流水 级 间 的 寄存 器 也 会 引 人 额 外 的 延迟 。 试 根据 下 表 给 出 
的 两 种 流水 线 延 迟 情况 回答 下 列 问题 。 


流水 级 间 的 寄存 器 





4.17.4 [5j] <4.6 > 假设 没有 阻塞 ， 流 水 线 相 对 于 单 周期 数据 通路 的 加 速 比 是 多 少 ? 

4.17.5 [10] <4.6 > 我们 可 以 把 所 有 存 取 指 令 的 寻 址 方式 变 为 仅 基 于 寄存 器 (不 考虑 偏 移 ) ， 这 样 存 取 存 
储 器 操作 就 可 以 与 ALU 操作 并 行 了 。 在 单 周期 数据 通路 和 流水 线 数据 通路 中 进行 这 种 改变 后 ， 时 
钟 周期 分 别 是 多 少 ? 假设 新 的 EX/MEM 级 的 延迟 等 于 EX 级 和 MEM 级 的 较 大 者 。 

4.17.6 [10] <4.6 > 习题 4.17.5 要 求 许多 现存 的 lw/sw 指令 变换 为 包含 2 条 指令 的 指令 对 。 假设 有 50% 
的 存 取 指令 需要 这 种 变换 ， 那 么 从 五 级 流水 线 变 成 四 级 流水 线 (EX 和 MEM 级 并 行 ) 的 加 速 比 是 
多 少 ? 


习题 4. 18 
下 表 给 出 了 流水 线 (参见 图 4-51) 中 执行 的 指令 、 时 钟 周 期 、ALU 延迟 和 Mux 延迟 的 两 种 情况 。 试 根 


据 表 中 两 种 情况 分 别 回答 下 列 问题 。 
一 
mm om | an 


4.18.1 [10] <4.6> 每 个 流水 级 的 控制 信号 值 是 多 少 ? 
4. 48.2 [10] <4.6, 4.7 > 控制 单元 需要 在 多 长 时 间 内 产生 控制 信号 ALUSre? 与 单 周期 实现 进行 比较 。 
4. 18. 3 对 这 条 指令 而 言 ，PCSre 控制 信号 的 值 应 是 多 少 ?这 个 信号 在 MEM 级 中 产生 ( 仅 使 用 了 一 个 与 
门 ) ， 为 什么 不 在 EX 级 才 产 生 这 个 信号 ? 
下 表 给 出 两 个 信号 的 两 种 情况 ， 试 根据 每 种 情况 分 别 回答 下 列 问 题 。 








育 寻 2 


4.18.4 [5] <4.6 > 这 两 个 控制 信号 分 别 是 在 哪个 流水 级 生成 ， 又 在 哪个 流水 级 使 用 的 ? 
4.18.5 .5] <4.6 > 对 哪些 MIPS 指令 ， 这 两 个 信号 都 设置 为 1? 
4.18.6 [10] <4.6 > 这 两 个 信号 中 哪 一 个 沿 流水 线 反 向 传输 ? 这 是 一 个 时 间 旅 行 悖 论 吗 ?为 什么 ? 


习题 4. 19 
本 习题 讨论 流水 线 处 理 器 中 转发 的 成 本 /复杂 度 /性 能 折 中 。 参 考 图 4-45 的 流水 线 数据 通路 ， 假 设 指令 
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中 有 部 分 存在 RAW (Read After Write， 写 后 读 ) 数据 相关 。RAW 数据 相关 根据 生成 结果 的 流水 级 (EX 或 
MEM) 和 使 用 结果 的 流水 级 (1" 意 味 着 生成 结果 后 的 第 一 条 指令 ，2" 意味 着 生成 结果 后 的 第 二 条 指令 ) 
确认 。 假 设 在 时 钟 周 期 的 前 半 部 分 写 寄存 器 ,在 后 半 部 分 读 寄 存 器 ， 这 样 “EX to 3"” 和 “MEM to 2™” 
相关 不 会 产生 数据 冒险 。 最 后 假设 无 数据 冒险 时 处 理 器 的 CPI 为 1。 


仅 EXto 2™ 


% 





4.19.1 [10] <4.7 > 如 果 不 使 用 转发 会 有 百 分 之 多 少 的 时 间 周 期 因为 数据 冒险 阻塞 ? 

4.19.2 [5] <4.7 > 如果 使 用 完全 的 转发 《转发 所 有 可 以 转发 的 结果 ) ， 会 有 百 分 之 多 少 的 时 间 周 期 因为 数 
据 冒 险阻 塞 ? 

4. 19.3 [10] <4.7 > 假设 不 能 提供 三 输入 多 选 器 (对 完全 的 转发 是 必需 的 ) ， 我 们 必须 确定 从 EX/MEM 流 
水 线 寄存 器 转发 (转发 1 个 周期 ) 还 是 从 MEM/WB 流水 线 寄存 器 转发 (转发 2 个 周期 ) 更 好 ? 哪 
种 方法 会 产生 更 少 的 数据 阻塞 ? 

下 表 给 出 了 各 级 流水 线 延 迟 的 两 种 情况 。 其 中 EX 级 给 出 了 不 同 转发 情况 下 的 延迟 。 试 根据 两 种 情况 
分 别 回答 下 列 问题 。 















EX ( 仅 有 来 自 
MEM/WB 的 转发 ) 


EX ( 仅 有 来 自 
EX/MEM 的 转发 ) 


4 2.4 [10] <4.7> 对 给 定 的 冒险 概念 和 流水 级 延迟 ， 完 全 的 转发 相对 于 无 转发 的 加 速 比 是 多 少 ? 

4.19.5 [10] <4.7 > 如 果 加 入 能 消除 所 有 数据 冒险 的 时 间 旅 行 转发 ， 其 相对 于 完全 转发 的 加 速 比 是 多 少 ? 
假设 在 完全 转发 的 基础 上 加 入 这 个 还 没 发 明 的 时 间 旅 行 转发 的 代价 是 增加 100 ps 的 延迟 。 

4. 19.6 [20] <4.7 > 重 做 习题 4. 19. 3， 这 次 问 哪 种 方法 会 产生 更 小 的 CPI。 


习题 4. 20 
试 根据 下 表 的 两 个 指令 序列 分 别 回答 下 列 问题 。 


lw $1,40 ($2) 
add $2, $3, $3 
add $1, $1, $2 
Sw $1,20 ($2) 








add $1, $2, $3 
Sw $2,0 ($1) 
Jw $1,41{ $2) 
add $2, $2, $1 












4.20.1 [5] <4.7> 找 出 指令 序列 中 的 数据 相关 。 

4 20.2 [10] <4.7 > 分 别 对 有 转发 和 无 转发 的 五 级 流水 线 找 出 指令 序列 中 的 冒险 。 

4.20.3 [10] <4.7> 为 减少 时 钟 周期 ， 考 虑 将 MEM 级 划分 成 两 级 。 对 这 个 六 级 流水 线 重 做 习题 4. 20. 2。 
假设 数据 存储 器 中 的 初 值 为 0 且 寄 存 器 0 ~ 3 号 的 值 如 下 表 所 示 ， 试 根据 两 种 情况 分 别 回答 下 列 

问题 。 
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4. 20.4 [5] <4.7 > 第 一 个 转发 的 值 是 多 少 ? 它 覆 盖 掉 的 值 是 多 少 ? 
4. 20. 5 [10] <4.7> 假 如 当 我 们 设计 冒险 检测 单元 时 忘 了 实现 转发 单元 ， 指 令 序 列 执行 完成 后 最 终 的 寄存 


器 值 是 多 少 ? 

4. 20.6 [10] <4.7 > 假如 忘 了 实现 转发 单元 〈 如 习题 4. 20. 5 描述 的 设计 ) ， 该 怎么 加 入 nop 指令 以 保证 指 
令 序列 的 正确 执行 ? 

习题 4. 21 


本 习题 讨论 转发 、 祖 险 检 测 和 指令 集 设 计 之 间 的 关系 。 分 别 和 根据 下 表 的 两 个 指令 序列 回答 下 列 问 题 。 
假设 其 在 一 个 五 级 流水 线 上 执行 。 


Fl | | 


lw $1,40 ($6) 












add $1, $5, $3 






add $2, $3, $1 SW 名 1 ,0 {$2) 
有 1 add $l, $6, $4 lw $1,4 ($2) 
Sw $2,20 ($A) add $5, $5, $1 






Sw $1,0 ($2) 





and $1, $1,， $4 





4.21.1 [5] <4.7 > 如 果 没 有 转发 或 冒险 检测 电路 ， 请 插入 nop 指令 以 保证 正确 执行 。 

4.21.2 [10] <4.7 > 重 做 习题 4. 21. 1 ， 这 次 仅 当 通过 改变 或 重 排序 指令 都 也 不 能 避免 冒险 时 才 插 和 人 nop 指 
令 。 假设 可 以 使 用 寄存 器 R7 作为 临时 寄存 器 。 

4.21.3 [10] <4.7 > 如 果 处 理 器 中 存在 转发 ， 但 忘 了 实现 冒险 检测 单元 〈 以 为 实现 了 ) ， 代 码 执行 时 会 发 
生 什 么 情况 ? 

4.21.4 [20] <4.7 > 如果 存在 转发 ， 在 执行 指令 序列 的 前 五 个 时 钟 周期 ,通过 图 4-60 中 的 冒险 检测 和 转发 
单元 指出 每 个 周期 中 哪些 信号 是 有 效 的 。 

4.21.5 [10」 <4.7 > 如 果 没 有 转发 ， 对 图 4-60 中 的 冒险 检测 单元 来 说 还 需要 哪些 新 的 输入 输出 信和 号 ? 以 该 
指令 序列 为 例 ， 说 明 为 什么 需要 这 些 信和 号。 

4.21.6 [20] <4.7> 对 习题 4.21.5 中 新 的 冒险 检测 单元 来 说 ， 给 出 执行 时 前 五 个 时 钟 周期 中 每 个 周期 设置 
的 控制 信号 (使 有 效 )。 


习题 4. 22 


本 习题 讨论 流水 线 处 理 器 的 延迟 时 间 构 、 控 制 冒 险 和 分 支 执行 之 间 的 关系 。 假 设 下 列 MIPS 代码 在 一 
个 五 级 流水 线 、 有 完全 转发 和 预测 分 支 总 发 生 的 处 理 器 上 运行 。 试 根据 下 表 的 两 个 指令 序列 分 别 回答 下 列 
问题 。 


Tabel1: Jw $1,40 ($6) 
beq $2, $3,Label2 ;分 支 发 生 
add $1, $6, $4 

Label2: beq $1, $2,Labell ;分支 不 发 生 
Sw  $2,201($4) 
and $1, $1, $4 


add $1, $5, $3 
Labell: sw $1,0 {$2) 
add $2, $2, $3 
beq $2, $4,Labell :分 文 不 发 生 
add $5, $5, $1 
Sw $1,0 ($2) 


4.22.1 |10] <4.8 > 画 出 该 指令 序列 的 流水 线 执行 图 ， 假 设 没有 延迟 时 间 槽 而 且 在 EX 级 执行 分 支 。 
4.22.2 |10] <4.8> 重 做 习题 4 22. 1， 但 是 假设 使 用 了 延迟 时 间 槽 。 给 定 的 代码 中 ， 眼 在 分 支 之 后 的 指令 
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是 该 分 支 的 延迟 槽 指令 。 
4. 22.3 [20] <4. 8 > 不 同 于 需要 一 个 ALU 操作 ， 另 一 种 提前 确定 分 支 方向 的 方法 是 使 用 “bez Rd,Iabel” 和 


“bnez Rd, Label” 之 类 的 条 件 分 支 指令 ， 该 类 条 件 分 支 指令 根据 寄存 器 值 是 否 为 零 决定 是 否 分 支 。 变 
换 原 指令 序列 以 使 用 该 类 条 件 分 支 指令 而 非 beq 指令 。 假 设 寄存 器 $8 是 临时 寄存 器 ， 并 且 可 以 使 用 RR 
型 指令 seq (set if equal， 相 等 置 1)。 
4. 8 节 说 明了 如 何 把 分 支 执行 提前 到 ID 级 以 减少 控制 冒险 。 这 个 方法 需要 在 D 级 增加 一 个 专 

用 的 比较 器 ， 如 图 4-62 所 示 。 但 是 这 个 方法 增加 了 ID 级 的 延迟 ， 并 且 需 要 额外 的 转发 逻辑 和 冒险 
检测 。 

4.22.4 [10] <4.8 > 以 指令 序列 中 第 一 条 分 支 指令 为 例 ， 说 明 图 4-62 中 为 支持 在 ID 级 执行 分 支 应 加 入 的 
冒险 检测 逻辑 。 该 逻辑 需要 检测 什么 类 型 的 冒险 ? 

4.22.5 [10]<4.8 > 对 给 定 的 指令 序列 ， 把 执行 分 支 移 到 ID 级 带 来 的 加 速 比 是 多 少 ? 为 什么 ? 假设 了 D 级 
进行 的 额外 比较 不 影响 时 钟 周期 。 

4.22.6 [10] <4.8 > 以 指令 序列 中 第 一 条 分 支 指令 为 例 ， 说 明 为 支持 在 了 D 级 执行 分 支 应 加 入 的 转发 。 比 较 
新 转发 单元 与 图 4-62 中 转发 的 复杂 度 。 


习题 4. 23 


一 个 好 的 分 支 预测 器 有 多 重要 取决 于 条 件 分 支 指令 的 多 少 ， 它 与 分 支 预测 器 的 精度 共同 决定 误 预 测 分 
文 导致 的 阻塞 时 间 长 得 。 下 表 给 出 了 不 同类 型 指令 所 占 比 例 及 对 应 分 支 预 测 器 精度 的 两 种 情况 ， 试 根据 不 
同情 况 回 答 下 列 问题 。 













4 33.1 1 10j <4.8 > 误 预测 分 支 导致 的 阻塞 将 增加 CPI。 对 分 支 总 发 生 预 测 器 而 言 ， 误 预 测 分 支 将 导致 CPI 
增加 多 少 ? 假设 分 支 方向 在 EX 级 确定 ， 没 有 数据 冒险 日 不 使 用 延迟 时 间 模 。 

4.23.2 [10] <4.8 > 重 做 习题 4.23.1， 这 次 改 为 分 支 总 不 发 生 预 测 回 。 

4.23.3 [10] <4.8 > 重 做 习题 4. 23. 1， 这 次 改 为 2 位 分 支 预 测 髓 。 

4.23.4 [10] <4.8 > 对 2 位 分 支 预测 器 而 言 ， 将 一 半分 支 指令 用 ALU 指令 替代 (一 条 ALU 指令 替代 一 条 
分 支 指令 ) 将 获得 的 加 速 比 是 多 少 ? 假设 被 正确 预测 的 分 支 指令 和 被 不 正确 预测 的 分 支 指令 被 取代 
的 概率 相同 。 

4.23.5 [10] <4.8 > 对 2 位 分 支 预测 器 而 言 ， 将 一 半分 支 指令 用 ALU 指令 替代 (两 条 ALU 指令 替代 一 条 
分 文 指 令 ) 将 获得 的 加 速 比 是 多 少 ? 假设 被 正确 预测 的 分 支 指令 和 被 不 正确 预测 的 分 支 指令 被 取代 
的 概率 相同 。 

4.23.6 [10] <4.8 > 有 些 分 支 是 非常 容易 预测 的 。 假 设 80% 的 分 支 指令 都 是 非常 容易 预测 的 循环 返回 分 
支 ， 那么 2 位 分 支 预测 器 对 刹 下 的 20% 分 支 指令 的 预测 精度 是 多 少 ? 


习题 4. 24 


本 习题 讨论 不 同 分 支 预 测 器 对 固定 分 支 模 式 〈 如 循环 ) 的 预测 精度 。 下 表 给 出 了 两 种 分 支 模式 (其 中 
T 表示 分 支 发 生 ，NT 表示 分 支 未 发 生 ) ， 试 根据 不 同 的 分 支 模式 回答 下 列 问题 。 
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分 支 模式 
a T, T, NT, T 
by. T, T, T, NT, NT 


4.24.1 15] <4.8 > 对 该 分 支 模式 ， 分 支 总 发 生 预 测 回 与 分 支 总 不 发 生 预 测 器 的 准确 率 分 别 是 多 少 ? 

4. 24.2 [5] <4.8 > 对 该 分 支 模式 的 前 4 个 分 支 而 言 ，2 位 分 支 预 测 器 的 准确 率 是 多 少 ? 假设 预测 器 的 初始 
状态 与 图 4-63 左下 角 状 态 相 同 【预测 未 发 生 ) 。 

4. 24.3 [10] <4.8 > 如 果 该 分 支 模 式 一 直 重 复 下 去 ，2 位 分 支 预测 器 的 准确 率 是 多 少 ? 

4.24.4 [130] <4.8 > 如 果 该 分 支 模式 一 直 重 复 下 去 ， 设 计 一 个 能 取得 最 高 准确 率 的 预测 器 。 这 个 预测 器 必 
须 是 一 个 时 序 电 路 ， 有 一 个 输出 表示 预测 结果 (1 表示 发 生 ，0 表示 未 发 生 )， 除 了 时 钟 和 指示 当 
前 指令 是 条 件 分 支 指令 的 信和 号 外 没有 其 他 输入 。 

4.24.5 [10] <4.8 > 如 果 有 一 个 分 支 模式 与 该 分 支 模式 完全 相反 且 一 直 重 复 下 去 ， 那 么 在 习题 4. 24. 4 中 你 
设计 的 预测 器 对 这 个 分 支 的 准确 率 是 多 少 ? 

4.24.6 [20] <4.8 > 重 做 习题 4.24.4， 这 次 你 的 预测 器 最 终 (可 能 需要 一 个 热身 过 程 》 可 以 同时 完美 地 预 
测 该 分 支 模式 及 完全 相反 的 分 支 模式 〈 假 设 分 支 模 式 一 直 重复 下 去 ) 。 这 个 预测 器 应 该 有 一 个 输入 
告诉 它 真 实 的 分 支 结果 。 提 示 : 这 个 输入 可 以 帮助 预测 器 判断 是 两 个 分 支 模式 中 的 哪 一 个 。 


习题 4. 25 


本 习题 讨论 蜡 常 处 理 对 流水 线 设 计 的 影响 。 根 据 下 表 的 两 种 情况 (每 种 情况 包含 两 条 指令 ) 分 别 回 答 
下 列 间 题 。 


指令 2 


a. add $0, $1, $2 bne $1, $2,Label 
b. lw $2,40 ($3) nangd $1, $2, $3 


4.25.1 [5] <4.9> 每 条 指令 分 别 可 能 产生 什么 异常 ? 对 每 个 可 能 产生 的 异常 ， 指 出 其 将 在 哪个 流水 线 被 
检测 到 。 

4.25.2 [10] <4.9 > 如 果 每 个 异常 都 有 独立 的 处 理 程序 地 址 ， 流 水 线 应 该 怎样 设计 ? 假设 设计 处 理 器 时 已 
知 每 个 异常 处 理 程序 的 地 址 。 

4.25.3 [10] <4.9 > 如 果 第 二 条 指令 紧 跟 第 一 条 指令 从 表 中 取出 ， 试 说 明 第 -条 指令 发 生 异 常 〈( 见 习题 
4. 25.1) 时 流水 线 的 运行 情况 。 
给 出 从 第 一 条 指令 取 指 开始 到 异常 处 理 程 序 第 一 条 指令 完成 时 的 流水 线 运行 图 。 

下 表 给 出 了 异常 处 理 程序 地 址 的 两 种 情况 ， 试 根据 每 种 情况 分 别 回 答 下 列 问题 。 


无 效 数据 地 址 未 定义 指令 ”| ”无 效 指令 地 址 
, 
/ 


4.25.4 [5] <4.9 > 习题 4.25.3 中 异常 处 理 程序 的 地 址 是 多 少 ? 如 果 指 令 存储 器 中 该 地 址 处 是 一 条 无 效 指 
令 会 怎样 ? 

4.25.5 [20] <4.9 > 在 向 量 异常 处 理 中 ,异常 处 理 程序 地 址 表 在 数据 存储 器 的 一 个 国定 位 置 。 改 变 流水 线 
的 实现 以 支持 向 量 异 常 处 理 。 重 做 习题 4 25.3， 这 次 使 用 支持 向 量 异常 处 理 的 流水 线 。 

4.25.6 [15] <4.9 > 我 们 想 要 在 仅 有 一 个 固定 处 理 程序 地 址 的 处 理 器 上 模拟 向 量 异常 处 理 ， 写 出 相应 的 禄 
序 。 提 示 : 这 段 程序 应 识别 异常 类 型 ， 从 异常 向 量 表 中 获得 正确 地 址 ， 然 后 胱 转 到 该 异常 处 理 各 
序 处 。 
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习题 4. 26 
本 习题 讨论 异常 处 理 对 控制 单元 设计 和 处 理 器 时 钟 周 期 的 影响 。 根 据 下 表 两 条 引发 异常 的 指令 分 别 回 
答 下 列 问题 。 


蚜 党 
a 算术 溢出 
bh. , 无 效 的 数据 存储 器 地 址 


4.26.1 [10] <4.9 > 对 每 个 流水 级 ， 确 定 指令 流 经 该 级 时 图 4-66 中 异常 相关 控制 信和 号 的 值 。 
4.26.2 [5] <4.9 > 一 些 在 瑟 级 生成 的 控制 信和 号 被 保存 在 ID/AEX 流水 线 寄 存 器 中 ， 还 有 一 些 直接 就 进入 了 
EX 级 。 用 该 指令 为 例 解释 其 原因 。 
4. 26.3 [10] <4.9 > 如 果 我 们 在 异常 条 件 出 现 的 下 一 级 再 处 理 异 常 ， 可 以 让 EX 级 更 快 一 些 。 以 该 指令 为 
例 ， 指 出 这 种 方法 的 主要 缺点 。 
根据 下 表 的 两 种 流水 级 延迟 情况 ， 分 别 回 答 下 列 问题 。 


4.26.4 [10] <4.9 > 如果 每 100 000 条 指令 发 生 一 次 溢出 异常 ， 那 么 将 溢出 检查 移 到 MEM 级 带 来 的 总 体 加 
速 比 是 多 少 ? 假设 这 个 改变 将 使 EX 级 的 延迟 减少 30 ns 并 且 无 异常 时 流水 线 处 理 器 的 IPC 为 1。 

4.26.5 [20] <4.9> 可 以 在 EX 级 而 非 ID 级 产生 异常 控制 信号 吗 ? 为 什么 ? 使 用 “bne $4, $5,Label” 
指令 和 各 流水 级 延迟 为 例 进行 说 明 。 

4.26.6 [10] <4.9> 假 设 每 个 多 选 器 的 延迟 是 40 ps， 那么 控制 单元 应 在 什么 时 间 内 产生 清除 信号 ?其 中 哪 
个 信号 最 关键 ? 


习题 4. 27 


本 习题 讨论 异常 处 理 与 分 支 和 存 取 指令 如 何 相互 影响 。 下 表 给 出 了 两 种 分 支 指令 和 对 应 延迟 时 间 权 的 
情况 ， 试 根据 每 种 情况 分 别 回答 下 列 问题 。 









分 支 与 延迟 时 间 村 
beq $1, $0,Label 
sw $6,50 {$1) 


beq $5, $0,Label 
nor $5, $4, $3 


4.27.1 [20] <4.9> 假 设 分 支 发 生 被 正确 地 预测 ， 但 是 标号 “Label” 处 的 指令 是 一 条 未 定义 指令 。 说 明 每 
个 周期 每 级 流水 级 中 的 情况 ， 从 分 支 指令 被 译 码 开始 到 蜡 常 处 理 程序 的 第 一 条 指令 被 取 指 为 止 。 
4.27.2.[10] <4.9> 重 做 习题 4.27. 1， 这 次 假设 延迟 时 间 槽 中 的 指令 也 将 在 MEM 级 导致 一 个 硬件 错误 


异常 。 
427.3 [10] <4.9> 如 果 分 支 发 生 但 延迟 时 间 槽 中 的 指令 引起 了 一 个 异常 ， 那 么 EPC 中 的 值 是 多 少 ?》 蜡 党 
处 理 程序 完成 后 将 发 生 什 么 情况 ? 
试 根据 下 表 的 两 条 存储 指令 分 别 回答 下 列 问 题 。 
-~ et 
sw $6,50 ($1) 


b. Sw $5,60 ($3) 
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4.27.4 [10] <4.9 > 如 果 分 支 发 生 且 标号 “Label” 处 是 一 条 无 效 的 指令 ， 而 且 异 和 常 处 理 程序 的 第 一 条 指令 
是 表 中 的 sw 指令 且 其 访问 了 一 个 无 效 地 址 ， 这 时 会 发 生 什 么 情况 ? 

4.27.5 [10] <4.9 > 如 果 存 取 指 令 的 地 址 计算 可 能 溢出 ， 是 否 可 以 将 这 个 溢出 检测 延迟 到 MEM 级 ? 以 表 
中 给 出 的 sw 指令 为 例 进 行 说 明 。 

4.27.6 [10] <4.9 > 对 调试 来 说 ， 能 够 检测 特定 的 存储 器 地 址 中 是 否 被 写 人 了 一 个 特定 的 值 非常 有 用 。 为 
了 实现 该 功能 ， 首 先 要 加 人 两 个 寄存 器 : WADDR 和 WVAL。 当 WADDR 中 的 地 址 被 写 人 WVAL 中 
的 值 时 处 理 器 产生 一 个 异常 。 应 该 怎样 设计 流水 线 以 实现 该 功能 ? 在 这 个 数据 通路 中 sw 指令 将 如 
何 处 理 ? 


习题 4. 28 
本 习题 比较 单 发 射 和 双 发 射 处 理 器 的 性 能 ， 并 考虑 对 双 发 射 处 理 器 进行 程序 优化 。 根 据 下 表 的 两 段 C 
代码 分 别 回 答 下 列 问 题 。 
C 代码 


for(i=0;!'=j;i++) 
bli] =a[lil]; 
for(i=0;a[l i]j!=a[i+1});i++) 
0 
在 写 MIPS 代码 时 ,假设 变量 被 保存 在 寄存 器 中 ， 如 下 表 所 示 ， 除 了 空闲 的 寄存 器 ， 其 余 寄存 器 都 被 
用 来 保存 变量 的 值 ， 因 此 不 能 再 用 作 其 他 用 途 。 





4.28.1 [10] <4.10 > 将 这 段 C 代码 翻译 成 MIPS 代码 。 这 种 翻译 必须 是 直接 的 ， 不 允许 对 代码 进行 重 
排序 。 

4.28.2 L10] <4. 10 > 如 果 循 环 仅 执行 两 次 后 就 退出 ， 画 出 习题 4. 28. 1 中 MIPS 代码 在 图 4-69 的 双 发 射 处 
理 带 中 执行 的 流水 线 图 。 假 设 处 理 器 能 进行 完美 的 分 支 预测 ， 并 且 一 个 周期 能 取 任意 两 条 指令 〈 不 
仅仅 是 连续 的 两 条 指令 ) 。 

4.28.3 [10] <4.10 > 重 排序 习题 4.28.1 中 的 MIPS 代码 ， 以 在 图 4-69 的 双 发 射 静态 调度 处 理 器 上 获得 更 
好 的 性 能 。 

4. 28. 4 [10] <4. 10 > 重 做 习题 4. 28. 2， 但 这 次 使 用 习题 4. 28. 3 中 的 MIPS 代码 。 

4.28.5 [10] <4 10> 从 单 发 射 处 理 器 到 图 4-69 的 双 发 射 处 理 器 ， 性 能 的 加 速 比 是 多 少 ? 在 单 发 射 和 双 发 
射 处 理 器 分 别 运行 习题 4. 28. 1 的 代码 ， 假 设 循环 执行 1 000 000 次 。 与 习题 4. 28. 2 相同 ， 假设 处 理 
货 能 进行 完美 的 分 支 预 测 ， 并 且 一 个 周期 能 取 任 意 两 条 指令 。 

4.28.6 [10] <4.10 > 重 做 习题 4.28.5， 这 次 假设 双 发 射 处 理 器 中 一 条 指令 可 以 是 任意 类 型 的 ， 而 另 一 条 
指令 必须 是 非 存 取 指 令 。 


习题 4. 29 
本 习题 讨论 静态 调度 超标 量 处 理 器 上 循环 的 执行 。 为 简化 起 见 ， 假 设 一 个 周期 内 可 以 同时 执行 任意 类 
型 的 指令 组 合 。 例 如 ， 在 一 个 三 发 射 超标 量 处 理 器 上 ， 同 时 执行 三 条 ALU 指令 /分 支 指令 / 存 取 指 令 ， 或 是 


任意 这 些 指令 的 组 合 。 注 意 ， 这 个 简化 仅 去 掉 了 资源 约束 ， 数据 相关 和 控制 相关 仍然 需要 考虑 。 根 据 下 表 
的 两 个 循环 分 别 回答 下 列 问题 。 
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Loop: add $1, $2, $3 
sw $0,0 ($1) 
addi $2, $2,4 
beq $2, $0,Loop 


lw $1,40 ($6) 
add $5, $5, $1 
sw $1,20 ($5) 
addi $6, $6,4 
addi $5, $5, -4 
beq $5, $0,Loop 












4. 29.1 [10] <4. 10 > 如 果 循 环 执行 很 多 次 (如 1 000 000 次 ) ， 在 双 发 射 静态 超标 量 处 理 器 中 有 多 少 周期 
(以 百分比 表示 ) 需要 使 用 寄存 器 堆 的 所 有 读 端 口 ? 

4. 29.2 [10] <4. 10 > 如 果 循 环 执 行 很 多 次 (如 1 000 000 次 ) ， 在 三 发 射 静态 超标 量 处 理 器 中 有 多 少 周 期 
(以 百分比 表示 ) 需要 使 用 寄存 器 堆 的 所 有 读 端口 ? 与 习题 4. 29. 1 中 的 结果 相 比较 。 

4. 29.3 [10] <4. 10 > 如 果 循 环 执行 很 多 次 (如 1000 000 次 )， 在 三 发 射 静态 超标 量 处 理 器 中 有 多 少 周期 
(以 百分比 表示 ) 需要 使 用 寄存 器 堆 的 两 到 三 个 写 端 口 ? 

4.29.4 [20] <4. 10 > 展开 循环 一 次 并 在 双 发 射 静态 超标 量 处 理 器 上 调度 。 假 设 循环 总 是 执行 偶数 次 。 在 调 
度 代码 时 可 以 使 用 寄存 器 $10 ~ $20 来 消除 相关 。 

4.29.5 [20] <4. 10 > 在 双 发 射 静态 超标 量 处 理 器 上 ， 习 题 4. 29. 4 的 代码 相对 于 原 代 码 的 加 速 比 是 多 少 ? 
假设 循环 执行 很 多 次 (如 1000 000 次 ) 。 

4.29.6 [10] <4. 10 > 在 单 发 射 处 理 器 上 ， 习 题 4. 29. 4 的 代码 相对 于 原 代 码 的 加 速 比 是 多 少 ? 假设 循环 执 
行 很 多 次 (如 1 000000 次 ) 。 


习题 4. 30 


本 习题 有 一 系列 的 假设 条 件 。 首 先 ， 假 设 一 个 N 发 射 超标 量 处 理 器 一 个 周期 内 能 执行 任意 类 型 的 N 条 
指令 。 其 次 ,假设 每 条 指令 是 独立 选择 的 ,不 考虑 指令 的 位 置 。 再 次 ,假设 没有 因数 据 相 关 引 起 的 阻塞 ， 
不 使 用 延迟 时 间 槽 ， 并 且 分 支 方向 在 流水 线 的 EX 级 确定 。 最 后 ， 假 设 执行 各 类 型 指令 的 比例 如 下 表 所 示 。 
试 根据 下 表 的 两 种 情况 回答 下 列 问题 。 





4. 30.1 [5] <4. 10 > 该 程序 在 双 发 射 静态 超标 量 处 理 器 上 能 取得 的 CPI 是 多 少 ? 

4.30.2 [10j <4. 10 > 对 双 发 射 静态 超标 量 处 理 器 来 说 ， 分 支 预测 器 一 个 周期 能 预测 两 个 分 支 相 对 于 只 能 预 
测 一 个 分 支 的 加 速 比 是 多 少 ? 假设 分 支 预测 器 不 能 处 理 分 支 阻塞 。 

4.30.3 [10] <4. 10 > 对 双 发 射 静 态 超 标量 处 理 器 来 说 ， 寄 存 器 堆 有 两 个 写 端 品 相对 于 只 有 一 个 写 端 口 的 加 
速 比 是 多 少 ? 

4.30.4 [5] <4.10 > 对 双 发 射 静态 超标 量 处 理 器 (假设 是 经 典 的 5 级 流水 线 ) 来 说 ， 完 美的 分 支 预 测 相对 
于 实际 的 分 支 预测 的 加 速 比 是 多 少 ? 

4. 30.5 [10j <4. 10 > 重 做 习题 4 30.4， 这 次 是 4 发 射 处 理 器 。 当 处 理 器 的 发 射 宽度 增加 时 ， 关 于 一 个 良好 
的 分 支 预 测 的 重要 性 你 能 得 出 什么 结论 ? 

4.30.6 <4. 10> 重 做 习题 4 30.5， 这 次 是 具有 50 级 流水 线 的 4 发 射 处 理 器 。 假 设 经 典 的 5 级 流水 线 中 每 级 
都 被 划分 为 更 小 的 10 级， 并 且 分 支 方向 确定 是 在 新 的 10 个 EX 级 中 的 第 一 级 。 当 处 理 器 的 流 线 深 
度 增加 时 ， 关 于 一 个 良好 的 分 支 预测 的 重要 性 你 能 得 出 什么 结论 ? 


习题 4. 31 
该 习题 基于 下 表 中 的 循环 ， 它 分 别 以 x86 和 MIPS 两 种 指令 形式 给 出 。 假设 循环 在 结束 前 执行 了 很 多 
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次 。 这 意味 着 在 计算 性 能 时 仅 需 计算 “稳定 ”状态 下 的 性 能 ， 不 必 考 虑 循环 开始 和 结束 时 的 情况 。 而 且 ， 
假设 有 完全 的 转发 支持 和 完美 的 分 支 预测 ， 没 有 延迟 时 间 槽 ， 这 意味 着 仅 需 考虑 资源 冒险 和 数据 冒险 。 注 
意 这 个 问题 中 的 绝 大 多 数 x86 都 有 两 个 操作 数 。 指 令 的 最 后 一 个 操作 数 (一 般 是 第 二 个 ) 同时 是 第 一 个 源 
操作 数 和 目的 操作 数 。 例 如 , “sub (edx) ，eax” 读 寄存 器 edx 索引 的 存储 器 中 的 值 ， 减 去 寄存 器 eax 中 的 
值 ， 再 把 结果 放 人 寄存 器 eax 中 。 


MR 
-4 (esp) ,eax Label: lw $2, -4 ($sp) 
(edx) , eax lw $3,0 ($4) 
add $2, $2, $3 
eax, -4 {esp) Sw $2, -4 ($sp) 
1 ,ecx addi $6, $6,1 
4 ,edx addi $4, $4,4 
esi,ecx slt $1, $6, $5 
Label bne $1, $0,Label 
Label: jw $2,0 ($4) 
eax, (ecx) add $2, $2, $5 


eax, Edx 
l1,eax 
Label 


$2,0 {$4) 
$4, $5, $0 
$5, $5,1 

$1, $5, $0 





bne $1, $0,Label 


4.31.1 [20] <4.11 > 循环 的 MIPS 版 本 在 静态 调度 5 级 流水 线 单 发 射 处 理 器 上 运行 的 CPI 为 多 少 ? 

43L2 [20] <4.11 > 循环 的 x86 版 本 在 静态 调度 7 级 流水 线 单 发 射 处 理 器 上 运行 的 CPI 为 多 少 ? 流水 级 的 
各 级 分 别 是 正 、ID、ARD、MRD、EXE 和 WB。IF 和 ID 级 与 5 级 MIPS 流水 线 是 类 似 的 。ARD 计算 
读 存储 器 的 地 址 ; MRD 执行 存储 器 读 ; EXE 执行 操作 ; WB 将 结果 写 回 寄存 器 堆 或 存储 器 。 数 据 
存储 器 有 一 个 读 端口 《对 MRD 级 的 指令 ) 和 一 个 写 端口 (对 WB 级 的 指令 ) 。 

4 31.3 [20] <4.11 > 如 果 循环 的 x86 版 本 在 这 样 一 个 处 理 器 上 运行 ， 其 内 部 将 x86 指令 转变 成 类 MIPS 的 
微 操作 ， 然 后 在 静态 调度 的 单 发 射 5 级 流水 线 上 执行 微 操 作 ， 其 能 取得 的 CPI 是 多 少 ? 注意 计算 
CPI 时 用 的 是 x86 指令 的 数量 。 

4.31.4 [20] <4.11 > 循环 的 MIPS 版 本 在 动态 调度 的 单 发 射 处 理 器 上 运行 的 CPI 为 多 少 ? 假设 处 理 器 不 进 
行 寄存 器 重 排名 ， 所 以 只 能 重 排序 无 数据 相关 的 指令 。 

4.31.5 [30j <4.10, 4.11 > 假设 有 许多 空闲 的 寄存 器 可 用 ， 对 循环 的 MIPS 版 本 进行 重 命名 以 尽 可 能 消除 
循环 内 的 数据 相关 。 使 用 这 个 重 命名 后 的 代码 重 做 习题 4. 31. 4。 

4.31.6 [20] <4.10, 4.11> 重 做 习 题 4. 31.4， 但 这 次 假设 处 理 器 在 每 条 指令 译 码 时 分 配给 其 一 个 新 名 字 ， 
然后 重 命名 后 续 指令 使 用 的 寄存 器 以 使 用 正确 的 值 。 


习题 4. 32 


本 习题 假设 分 支 指令 占 所 有 执行 指令 的 比例 和 分 支 预 测 准 确 率 如 下 表 所 示 。 假设 处 理 器 不 会 因数 据 相 
关 和 资源 相关 阻塞 ， 例 如 ， 在 没有 控制 冒险 的 情况 下 ， 处 理 器 总 是 每 个 周期 取 和 执行 最 大 数量 的 指令 。 对 
控制 相关 来 说 ,处理 器 使 用 分 支 预测 并 沿 预测 的 方向 继续 取 指 。 如 果 分 支 预测 错误 ， 分 支 结 果 确 定时 将 丢 
茎 因为 误 预测 分 支 而 取 的 那些 指令 ， 下 个 周期 处 理 器 将 沿 正确 的 方向 开始 取 指 。 


所 有 执行 指令 中 分 支 指令 的 比例 


“分支 预 测 准确 率 
90% 
99. 5% 


sip 
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4.32.1 [5] <4. 11 > 在 检测 到 一 次 分 支 误 预测 到 检测 到 下 一 次 分 支 误 预 测 之 间 ， 估 计 有 多 少 条 指令 被 执行 ? 
根据 下 表 的 流水 线 深度 和 确定 分 支 方向 的 级 从 第 1 级 算 起 ) 的 两 种 情况 ， 分 别 回 答 下 列 问题 。 


在 哪 一 级 确定 分 支 方向 

4.32.2 [5] <4.11 > 在 具有 上 述 流水 线 参 数 的 4 发 射 处 理 器 中 ， 在 任意 给 定 周期 内 估计 有 多 少 条 分 支 指令 
在 “进行 中 ”( 已 经 取 指 但 还 没 提交 )? 

4.32.3 [5] <4.11 > 在 4 发 射 处 理 器 中 一 次 误 预 测 将 导致 误 取 多 少 条 指令 ? 

4.32.4 [10] <4.11 >8 发 射 处 理 器 相对 于 4 发 射 处 理 器 的 加 速 比 是 多 少 ? 假设 8 发 射 处 理 器 与 4 发 射 处 理 
器 仅 在 每 周期 发 射 指令 数 上 不 同 ， 其 他 方面 (流水 线 深度 、 分 支 确定 级 等 ) 都 相同 。 

4.32.5 [10] <4.11 >4 发 射 处 理 器 中 提前 一 级 确定 分 支 方向 带 来 的 加 速 比 是 多 少 ? 

4.32.6 [10] <4.11 >8 发 射 处 理 器 中 提前 一 级 确定 分 支 方向 带 来 的 加 速 比 是 多 少 ?与 习题 4. 32. 5 的 结果 
进行 比较 。 


习题 4.33 


本 习题 讨论 分 支 预测 对 深 流水 线 多 发 射 处 理 器 性 能 的 影响 。 根 据 下 表 流 水 线 深 度 和 发 射 宽 度 的 两 种 情 
况 分 别 回答 下 列 问题 。 


流水 线 深度 发 射 宽度 


4 


“| 


4.33.1 [10j <4. 11 > 为 避免 资源 冒险 处 理 器 的 寄存 器 堆 需 要 多 少 个 读 端口 ? 
4.33.2 [10] <4. 11 > 如果 不 存在 分 支 误 预 测 和 数据 相关 ， 该 处 理 器 性 能 比 经 典 的 5 级 流水 单 发 射 处 理 器 要 
好 多 少 ? 假设 时 间 周 期 的 减少 与 流水 线 级 数 成 比例 。 
4.33.3 [10] <4. 11 > 重 做 习题 4. 33.2， 但 这 次 假设 每 条 指令 都 与 紧 跟 其 后 的 指令 存在 RAW ( Read After 
Write， 写 后 读 ) 数据 相关 。 假 设 转发 可 以 允许 连续 的 指令 背靠背 执行 ， 不 需要 阻塞 。 
根据 下 表 的 分 支 指令 比例 、 确 定 分 支 方 向 级 、 分 支 预测 器 精度 和 分 支 误 预 测 时 性 能 损失 的 两 种 情况 ， 
分 别 回答 下 列 问 题 。 


所 有 执行 指令 中 
分 支 指令 的 比例 确定 分 支 方向 的 级 分 支 预测 器 精度 
人 


433.4 110] <4.11 > 在 给 定 的 分 支 指 令 比例 和 预测 精度 下 ， 有 多 少 周 期 〈 以 百分比 表示 》〉 完全 用 于 错误 
分 支 方向 上 的 取 指 ? 忽略 表 中 的 性 能 损失 。 

.33.5 L20] <4.11 > 如 果 想 限制 误 预 测 导 致 的 阻塞 不 造成 表 中 给 出 的 性 能 损失 程度 ， 分 支 预测 准确 率 应 该 
是 多 少 ? 忽略 表 中 的 分 支 预 测 准确 率 。 


4.33.6 [10] <4.1] > 如果 想 让 性 能 达到 具有 理想 分 支 预测 处 理 器 性 能 的 一 半 ， 分 支 预 测 准 确 率 应 该 是 
多 少 ? 


习题 4.34 
本 习题 讨论 4.13 节 的 “流水 线 是 简单 的 ”误解 。 根 据 下 表 的 两 条 MIPS 指令 分 别 回答 下 列 问题 。 
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解释 
EEC 
b. 1w Rt,Offs (Rs) Reg[ Rt] =Mem[ Reg[ Rs ] +Offs] 


4.34.1 [10] <4. 13 > 给 出 仅 需 支持 该 指令 的 流水 线 数据 通路 。 假 设 执行 的 所 有 指令 都 是 该 指令 的 不 同 
实例 。 
4.34.2 [10] <4. 13 > 给 出 习题 4. 34. 1 中 数据 通路 所 需 的 转发 和 骨 险 检测 单元 。 
4.34.3 [10] <4. 13 > 为 了 支持 未 定义 指令 异常 需要 给 习题 4.34. 1 的 数据 通路 增加 哪些 电路 ? 注意 未 定义 
”指令 异常 应 该 在 处 理 器 遇 到 任何 其 他 类 型 指令 时 触发 。 
根据 下 表 的 两 条 MIPS 指令 分 别 回答 下 列 问 题 。 


柄 译 
beq Rs,Rt, Label if Reg[ Rsj ==Reg[ Rt 1]PC = PC +Offs 


b. and Rd, RS ,RE Reg[ RA] =Reg[ Rs | sgReg{ Rt ] 


4. 34.4 [10] <4. 13 > 说 明 如 何 扩展 习题 4. 34. 1 的 数据 通路 以 支持 该 指令 。 扩 展 后 的 数据 通路 应 仅 支持 这 
两 条 指令 的 实例 。 

434.5 [10] <4. 13 > 对 习题 4 34. 4 扩展 后 的 数据 通路 重 做 习题 4. 34. 2。 

习题 4. 35 


本 习题 讨论 指令 集 设计 与 流水 线 之 间 的 关系 。 假 设 我 们 有 一 个 多 发 射流 水 线 处 理 器 ， 其 流水 线 深 度 、 
人 发射 宽度 、 确 定 分 支 方向 所 在 级 、 分 支 预测 器 精度 等 如 下 表 所 示 ， 试 根据 每 种 情况 分 别 回答 下 列 问题 。 













|」 流水 线 深度 | ”发射 宽 度 | 确定 分 支 方向 的 级 | 分 支 预测 器 精度 所 有 指令 中 分 支 指令 的 比例 
: 





4.35.1 15」<4.18，4. 13 > 控制 冒险 能 通过 加 入 分 支 延 迟 时 间 模 消除。 如果 想 消除 该 处 理 器 的 所 有 控制 冒 
险 ， 每 个 分 支 后 应 有 几 个 分 支 延 迟 时 间 材 ? 

4.35.2 [10] <4.8, 4.13 > 通过 使 用 4 个 分 支 延 迟 时 间 模 ， 可 以 给 处 理 器 带 来 多 大 的 加 速 比 ? 假设 指令 间 
没有 数据 相关 ， 并 且 所 有 4 个 延迟 时 间 榴 中 都 填 满 了 有 用 的 指令 。 为 了 简化 计算 ， 可 以 假设 误 预 测 
的 分 支 指令 总 是 一 个 周期 内 取 的 最 后 一 条 指令 ， 例 如 ， 当 在 误 预 测 的 路 径 上 取出 分 支 指令 时 则 流水 
级 中 没有 其 他 指令 。 

4.35,3 [10] <4.8, 4.13 > 重 做 习题 4. 35. 2， 但 这 次 假设 执行 分 支 的 10% 有 4 个 延迟 时 间 槽 旦 其 中 都 填 
充 了 有 用 的 指令 ,20% 的 分 支 有 3 个 延迟 时 间 槽 填充 了 有 用 的 指令 〈 第 四 个 延迟 时 间 槽 中 是 
nop) ，30% 的 分 支 有 2 个 延迟 时 间 槽 填充 了 有 用 的 指令 ， 剩 下 40% 的 分 支 在 其 延迟 时 间 槽 中 没 
有 有 用 的 指令 。 

根据 表 中 的 两 个 C 循环 代码 分 别 回 答 下 列 问题 。 












for(i=0;i!i=j;i+ +)f 
blil]=alil]; 


for (i=0;a[li]j!=ali+1];i+ +)1 
c++}; 





} } 






4.35.4 [10] <4.8, 4.13 > 将 C 版 本 的 循环 代码 转化 为 MIPS 版 本 的 ， 假 设 我 们 的 指令 集 对 每 个 分 支 要 求 
一 个 延迟 时 间 模 。 尽 可 能 在 延迟 时 间 档 中 填充 非 nop 指令 。 假 设 变量 a、b、c、; 和 j 分 别 被 保存 
在 寄存 器 $81、$2、$83、84 和 $5 中 。 

4.35.5 [10] <4.7，4. 13 > 重 做 习题 4. 35. 4， 这 次 每 个 分 支 有 2 个 分 支 延迟 时 间 槽 。 
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4.35.6 [10] <4.10, 4.13 > 可 以 同时 有 多 少 个 习题 4.35.4 中 的 循环 在 处 理 絮 的 流水 线 中 “处 理 ”? 我 们 所 
谓 的 “处 理 ” 是 指 至 少 循环 中 的 一 条 指令 被 取 指 但 还 没有 被 提交 。 


习题 4. 36 


本 习题 讨论 4. 13 节 提 到 的 最 后 一 个 陷阱 
指令 分 别 回答 下 列 尖 4 个 问题 。 


指令 解释 


. Reg[ Rt] =Mem| RegLRs] + Offset] 
a. lwinc Rt,Offset (Rs) Reg[ Rs] -Reg[ Rs] +4 


bh. addr Rt,Offset (Rs) Reg[ Rt] =Mem| Reg[ Rs] +Offset] +Reg[l Rt] 


4.36.1 [10] <4.11，4. 13 > 将 该 指令 翻译 成 MIPS 微 操 作 。 
4.36.2 [10] <4.11, 4.13 > 为 了 支持 新 指令 所 需 的 微 操作 ， 需 要 对 原 有 的 5 级 MIPS 流水 线 做 什么 改动 ? 
4.36.3 [20] <4. 13 > 如 果 要 把 这 条 指令 加 入 MIPS 指令 集 ， 讨 论 应 如 何 修改 流水 线 (在 哪 一 级 修改 ?修改 
哪些 结构 ?) 以 直接 (不 是 以 微 操作 的 形式 ) 支持 该 指令 。 
4. 36.4 [10j <4. 13 > 你 认为 这 条 指令 可 能 用 的 概率 有 多 大 ? 你 认为 把 这 条 指令 加 入 MIPS 指令 集合 适 吗 ? 
本 练习 剩 下 的 两 个 问题 ， 是 关于 向 ISA 中 添加 一 条 新 的 addm 指令 的 。 在 深 加 了 addm 的 处 理 器 中 ， 
按照 在 该 周期 完成 了 哪 条 指令 (或 哪 种 停顿 阻止 了 指令 的 完成 ) ， 假 定 这 些 问 题 对 时 钟 周期 进行 如 下 


指令 集 设 计时 没有 考虑 流水 线 。 根 据 下 表 的 两 条 新 MIPS 








4 36.5 [10」<4. 13 > 如 果 用 三 条 指令 组 成 的 序列 (lw、add 和 sw) 代替 addm 指令 能 取得 多 少 的 加 速 比 ? 
假设 addm 指令 以 某 种 方式 被 经 典 的 5 级 流水 线 支持 且 不 会 产生 结构 冒险 。 

4 36.6 [10. <4. 13 > 重 做 习题 4.36.5, 但 这 次 假设 addm 指令 的 支持 需要 增加 一 级 流水 线 。 如 果 addm 被 
翻译 成 三 条 指令 执行 ， 就 可 以 不 需要 这 一 级 流水 线 ， 这 意味 着 可 以 消除 一 半数 据 阻塞 。 注意 ， 数 据 
阻 窗 的 消除 仅 对 addm 翻译 前 存在 的 阻塞 有 效 ， 对 addm 翻译 本 身 产生 的 阻塞 无 效 。 


习题 4. 37 


本 习题 讨论 流水 线 设计 的 一 些 折 中 考虑 ， 如 时 钟 周期 和 硬件 资源 的 利用 。 根 据 表 中 的 两 段 MIPS 代码 
分 别 回 答 下 列 问 题 。 假 设 处 理 器 不 使 用 延迟 时 间 权 。 


1wW $1 ,40 ($6) 

beq $1, $0,Label ;假设 $1 == $0 
a. Sw $6,50 ($1) 

Dabel: add $2, $3, $1 

SW $2,50 ($1) 

lw $5, -16¢(%5) 

SW $5, -16 ($5) 
bh. lw $5, ~- 20¢ $5) 

beq $5, $0,Label ;假设 $51!= $0 

add $5, $5, $5 


4.37.1 [5] <4.3, 4.14 > 基本 的 单 周期 数据 通路 的 哪些 单元 会 被 所 有 这 些 指 令 用 到 ? 哪些 部 件 是 最 少 用 
到 的 ? 
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4.37.2 [10] <4.6，4. 14 > 怎样 使 用 数据 存储 器 的 读 端口 和 写 端 口 ? 
4.37.3 [10] <4.6，4. 14 > 假设 已 经 有 一 个 单 周 期 的 设计 。 实 现 流 水 线 设 计 需 要 的 流水 线 寄存 器 的 总 位 数 
是 多 少 ? 
根据 下 表 各 单元 延迟 的 两 种 情况 分 别 回 答 下 列 问题 。 





4.37.4 [10」<4.3，4.5，4. 14 > 比较 单 周 期 实现 和 5 级 流水 线 实现 的 时 钟 周期 。 

4.37.5 [10] <4.3，4.5，4. 14 > 重 做 习题 4. 37.4， 但 这 次 假设 数据 仅 需 支持 ADD 指令 。 

4.37.6 [120j] <4.3，4.5，4. 14 > 如 果 减 少数 据 通 路 中 某 单 元 延迟 1 ps 的 代价 是 $1， 那 单 周 期 实现 和 流水 
线 实现 的 时 钟 周期 减少 20% 所 需 的 代价 分 别 是 多少 ? 


习题 4. 38 


本 习题 讨论 人 性 能 与 功 耗 的 关系 。 假 设 数据 通路 各 单元 的 功 耗 如 下 表 所 示 ， 其 他 单元 的 功 耗 可 以 忽略 。 
试 根据 下 表 的 两 种 情况 分 别 回 答 下 列 问题 。 





4.38.1 [10] <4.3, 4.6, 4.14 > 在 单 周期 实现 和 流水 线 实现 中 执行 一 条 加 法 指令 的 功 耗 分 别 是 多 少 ? 
4.38.2 [10j <4.6, 4.14 > 功 耗 消耗 最 大 的 MIPS 指令 是 哪 一 条 ? 执行 这 条 指令 的 功 耗 是 多 少 ? 
4.38.3 [10] <4.6, 4. 14 > 如 果 功 耗 是 最 重要 的 约束 ， 应 该 怎样 设计 流水 线 ? 在 这 种 流水 线 下 执行 一 条 1w 
指令 的 功 耗 是 多 少 ? 
假设 数据 通路 各 单元 的 功 耗 如 下 表 所 示 ， 其 他 单元 的 功 耗 可 以 忽 路 。 试 根据 下 表 的 两 种 情况 分 别 回答 
下 列 问题 。 





4.38.4 [10j <4.6,，4. 14 > 如 果 像 习 题 4.38. 3 中 那样 设计 流水 线 ， 其 对 性 能 会 造成 多 大 的 影响 ? 

4.38.5 [10」<4.6,，4. 14 > 我 们 可 以 去 掉 MemRead 控制 信号 ， 即 每 个 周期 都 读数 据 存储 器 ( MemRead 恒 
为 1)。 解 释 为 什么 去 掉 该 控制 信号 后 处 理 器 依然 能 正常 工作 。 它 对 时 钟 频率 和 功 耗 又 有 什么 影响 ? 

4.38.6 [10] <4.6, 4.14 > 如 果 一 个 单元 的 空闲 功 耗 仅 为 正常 工作 时 的 10% ， 每 个 周期 指令 存储 器 的 功 耗 
是 多 少 ? 指令 存储 器 消耗 的 功 耗 中 有 多 少 是 空闲 功 耗 ? 


习题 4. 39 


本 习题 假设 程序 执行 时 ， 处 理 器 的 时 钟 周 期 是 这 样 消 耗 的 : 一 个 周期 被 “消耗 ”在 一 条 指令 上 仅 当 在 
该 周期 完成 这 种 类 型 的 指令 时 。 一 个 周期 被 “消耗 ”在 阻塞 上 仅 当 处 理 器 在 该 周期 因 阻塞 没有 完成 一 条 指 


令 时 。 





4. 39. 1 
4. 39. 2 
4. 39. 3 
4. 39. 4 


4. 39. 5 


4. 39.6 
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本 题 还 假设 各 流水 级 的 延迟 和 功 耗 如 下 表 所 示 。 各 流水 线 在 给 定 延 迟 内 完成 工作 必须 消耗 相应 的 功 
耗 。 注 意 ， 无 存储 器 存 取 时 MEM 级 是 没有 功 耗 的 。 类 似 的 ， 没 有 寄存 器 写 时 ，WB 级 也 是 没有 功 
耗 的 。 试 根据 表 中 的 两 种 情况 分 别 回答 下 列 问 题 。 












Fr | » | x | My 
300 pe/120 p]J 400 ps/60 pJ 350 ps/75 pJ 500 ps/130 p]J 100 ps/20 pJ 





HO pO] 
[10] <4. 14 > 处 理 器 的 性 能 (每 秒 执行 指令 数 ) 如 何 ? 

[10] <4. 14 > 处 理 器 的 功 耗 (每 秒 消耗 多 少 焦 ) 如 何 ? 

[10] <4.6，4. 14 > 在 不 影响 处 理 器 时 钟 周期 的 前 提 下 ， 哪 个 流水 级 可 以 惕 一 些 ， 最 多 慢 多 少 ? 
[20] <4.6，4. 14 > 为 了 减少 功 耗 经 常 牺牲 一 些 电路 的 速度 。 假 设 我 们 可 以 在 增加 延迟 至 X 倍 的 同 
时 减少 功 耗 至 1/X。 试 对 各 流水 级 进行 调整 以 在 不 影响 处 理 器 总 体 性 能 的 前 提 下 尽量 减少 功 耗 。 对 
调整 后 的 处 理 器 重 做 习题 4. 39. 2。 

[10] <4.6, 4. 14 > 重 做 习题 4. 39.4， 但 这 次 的 目标 是 最 小 化 每 指令 功 耗 但 时 钟 周 期 的 增加 不 超 
过 10%。 

[10] <4.6,4. 14 > 重 做 习题 4. 39. 5， 但 这 次 假设 可 以 在 增加 延迟 至 X 倍 的 同时 减少 功 耗 至 1/X?。 
相对 于 习题 4. 39. 2 的 结果 而 言 这 种 方法 能 节省 多 少 功 耗 ? 







小 测验 答案 


4.1 节 
4.2 节 
4.3 节 
4.4 节 


4.5 节 
4.6 节 
4.8 节 
4.9 节 
4. 10 节 
4.11 节 
4.12 节 
4. 12 节 


控制 器 、 数 据 通路 、 存 储 器 。 少 了 输入 和 输出 。 
错 。 边 沿 触发 状态 单元 可 以 同时 进行 读 写 。 
1) A; 2) C。 
是 ，Branch 与 ALUOp0 是 相同 的 。 而 且 ，MemtoReg 和 RegDst 是 相反 的 ， 不 需要 额外 的 反 相 器 。 
仅 使 用 另外 一 个 信号 ， 并 翻转 多 路 选择 器 的 输入 即 可 。 
1) 因为 lw 的 结果 而 阻塞 ; 2) 转发 第 一 个 加 法 器 的 结果 写 人 $t1; 3) 不 需要 阻塞 或 旁 路 。 
B 和 D 正确 ， 其 余 错 误 。 
A. 预测 不 发 生 ; B， 预 测 发 生 ; C. 动态 预测 。 
A。 因 为 在 逻辑 上 它 最 先 执行 。 
A. 都 有 ; B. 都 有 ; C. 软件 ; D. 硬件 ，E. 硬件 ; F. 硬件 ; G. 都 有 ; H. 硬件 ; IL 都 有 。 
前 两 个 错误 ， 后 两 个 正确 。 
光盘 页 6.7-3， 第 一 种 和 第 三 种 情况 正确 。 
光盘 页 6.7-7， 只 有 第 三 种 情况 完全 正确 。 
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大 容量 和 高 速度 : 开发 存储 器 层次 结构 


在 理想 情况 下 ， 我 们 希望 存储 器 容量 可 以 无 限 大 ， 这 样 ， 任 何 特定 的 ee 字 都 可 以 立刻 得 
到 ……: 在 实际 中 ,我们 需要 构建 一 个 存储 器 的 层次 结构 ， 其 中 的 每 一 层 都 比 上 一 层 拥 有 更 大 的 


容量 ， 但 访问 速度 更 慢 。 
-一 -A. W. Burks, H. H. Goldstine 和 J. von Neumann 


《Preliminary Discussion of the Logical Design of an Electronic Computing Instrument》 1946 





计算 机 的 五 大 经 典 部 件 


5.1 引言 


从 最 早期 的 计算 开始 ， 程 序 员 就 希望 快速 存储 器 的 容量 可 以 无 限 大 。 这 一 章 主要 探讨 如 何 
帮助 程序 员 构 建 一 个 无 限 大 容量 的 虚拟 快速 存储 器 。 在 这 之 前 ， 让 我 们 通过 简单 的 类 比方 式 来 
介绍 将 要 使 用 的 关键 原理 和 机 制 。 

假如 一 个 学 生 正 在 完成 一 份 关 于 计算 机 人 硬件 重要 历史 性 发 展 的 论文 ， 他 可 以 从 图 书馆 的 书 
架 上 精心 挑选 一 些 经 典 计算 机 书籍 ， 并 将 它们 放 在 书桌 上 。 这 样 ， 所 需要 的 相关 资料 就 可 能 在 这 
些 书 中 找到 ， 并 且 在 很 长 一 段 时 间 内 ， 只 需 阅读 摆 在 书桌 上 的 书 而 无 需 返 回 到 书架 前 。 当 然 不 排 
除 会 出 现 其 间 要 从 书架 上 增补 部 分 所 需 资料 到 书桌 上 的 情况 。 但 与 每 次 从 书架 取 一 本 书 到 书桌 ， 
并 不 断 地 回 到 书架 前 还 书 而 后 取 另 一 本 书 相 比 ， 在 书桌 前 放 一 些 书 会 更 节省 时 间 。 

同样 ， 我 们 可 以 构建 一 个 大 容量 的 只 拟 存储 器 ， 它 能 像 小 容量 的 存储 器 那样 被 快速 访问 。 就 
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像 你 不 会 一 次 以 相同 的 概率 查阅 图 书馆 中 的 每 一 本 书 那样 ， 一 个 程序 也 不 会 一 次 以 相同 的 概率 
访问 它 全 部 的 代码 或 数据 。 否 则 ， 让 存储 器 访问 速度 既 快 且 容 量 义 大 是 不 可 能 的 ， 就 好 比 把 图 书 
馆 中 所 有 的 书 放 在 书桌 上 ， 还 要 保持 快速 查找 一 样 是 不 可 能 的 。 
局 部 性 原理 不 仅 适 用 于 在 图 书馆 查找 资料 的 工作 方式 ， 而 且 适 用 于 程序 执行 的 方式 。 局 部 
性 原理 表明 了 在 任何 时 间 内 ， 程 序 访问 的 只 是 地 址 空间 相对 较 小 的 一 部 分 内 容 。 以 下 是 两 种 不 
同类 型 的 局 部 性 : 
。 时 间 局 部 性 (时间 上 的 局 部 性 ) : 如 果 某 个 数据 项 被 访问 ， 那 么 在 不 久 的 将 来 它 可 能 再 
次 被 访问 。 就 如 刚 拿 了 一 本 书 到 书桌 上 查阅 ， 那 么 很 快 再 次 查阅 它 的 可 能 性 是 很 大 的 。 
。 空间 局 部 性 ”( 空间 上 的 局 部 性 ) : 如 果 某 个 数据 项 被 访问 ， 与 它 地址 相 邻 的 数据 项 很 快 可 能 
也 将 被 访问 。 例 如 ， 当 查找 到 一 本 关于 早期 经 典 计 算 机 的 书籍 时 ， 也 许 紧 挨 着 它 的 另 一 本 关 
于 后 期 工业 计算 机 的 书籍 同样 有 所 需 的 材料 。 因 为 图 书馆 通常 将 主题 相同 的 书 放 在 同一 个 书 
架 上 以 提高 空间 定位 效率 。 后 面 我 们 将 看 到 空间 局 部 性 原理 如 何 应 用 于 存储 层次 结构 。 
正如 查阅 书桌 上 的 资料 体现 了 自然 的 局 部 性 ， 程 序 的 局 部 性 起 源 于 简单 自然 的 程序 结构 。 例 
如 ， 大 多 数 程序 都 包含 了 循环 结构 ， 因 此 这 部 分 指令 和 数据 将 被 重复 地 访问 ， 呈现 出 了 很 高 的 时 间 
局 部 性 。 由 于 指令 通常 是 顺序 执行 的 ， 因 此 程序 也 呈现 了 很 高 的 空间 局 部 性 。 对 数据 的 访问 同样 显示 
了 一 种 目 然 的 空间 局 部 性 。 例 如 ， 对 数组 或 者 记录 中 的 元 素 进 行 顺 序 访 问 都 体现 了 高 度 的 空间 局 部 性 。 
我 们 可 以 利用 局 部 性 原理 将 计算 机 存储 器 组 织 成 为 存储 器 层次 结构 2。 存储 层次 结构 由 不 同 
速度 和 容量 的 多 级 存储 器 构成 。 快 速 存储 器 每 比特 的 成 本 要 比 慢 速 存储 器 高 很 多 ， 因 而 通常 它 
们 的 容量 也 比较 小 。 
目前 ， 构 建 存储 器 层次 结构 主要 有 三 种 技术 。 主 存储 器 由 DRAM (动态 随机 存 取 存储 器 ) 实 
现 ， 靠近 处 理 器 的 那 层 (cache) 则 由 SRAM (静态 随机 存 取 存 储 器 ) 来 实现 。DRAM 每 比特 成 本 
要 低 于 SRAM， 但 是 速度 比 SRAM 慢 。 价 格 的 差异 源 于 DRAM 每 比特 占用 的 存储 器 空间 较 少 ， 因 此 
守 量 的 硅 制 造 的 DRAM 的 容量 会 比 SRAM 的 要 大 。 速 度 的 差异 则 由 多 种 因素 造成 ， 我 们 将 在 附录 C 
《部 光盘 ) 的 C.9 节 中 介绍 。 第 三 种 技术 是 磁盘 (disk) ， 它 通常 是 存储 层次 结构 中 容量 最 大 是 速度 
最 慢 的 一 层 。 在 很 多 说 入 式 设备 中 ， 常 用 闪存 (flash memory) 来 替代 磁盘 ， 详 见 6.4 节 。 以 上 这 些 
技术 的 访问 时 间 和 每 比特 的 成 本 变化 很 大 ， 如 下 表 所 示 ( 表 中 使 用 的 是 2008 年 的 典型 数据 ) 。 


存储 器 技术 2008 年 每 GB 的 价格 
SRAM | 05-25m | $2000~ $5000 
DRAM ”50~70n | $25 ~ $75 

z z $0.02 ~ $2 


由 于 价格 和 访问 时 间 的 不 同 ， 构 建 存储 器 的 层次 结构 是 有 好 处 的 。 如 图 5-1 所 示 ， 较 快 的 存 
储 吕 而 近 处 理 器 ， 而 较 慢 的 、 便 宜 的 存储 器 层次 较 低 。 其 目的 是 以 最 低 的 价格 向 用 户 提供 尽 可 能 
大 的 存储 容量 ， 同 时 存 取 速度 与 最 快 的 存储 器 相当 。 z 

数据 间 样 被 组 织 成 层次 化 结构 :靠近 处 理 器 那 一 层 中 的 数据 是 那些 较 远 层次 中 的 子 集 ， 所 
有 的 数据 则 被 存在 最 慢 的 底层 。 我 们 依然 使 用 图 书馆 的 例子 来 进行 类 比 ， 书 桌 上 的 书籍 是 图 书 
馆藏 书 的 一 个 子 集 ， 进 而 也 是 学 校 中 所 有 图 书馆 藏书 的 一 个 子 集 。 而 且 ， 离 处 理 器 越 远 的 层次 访 
问 时 间 也 越 长 ， 就 像 我 们 在 学 校 图 书馆 系统 中 可 能 遇 到 的 情况 一 样 。 





日 ”时 间 局 部 性 (temporal locality) : 某 个 数据 项 在 被 访问 之 后 可 能 很 快 被 再 次 访问 的 特性 。 

已 。 空 间 局 部 性 spatial locality) ， 某 个 数据 项 在 被 访问 之 后 ， 与 其 地 址 相近 的 数据 项 可 能 很 快 被 访问 的 特性 。 

© 存储 性 导 次 结构 (memory hierarchy) : 一 种 由 多 存储 层次 组 成 的 结构 ， 存 储 器 的 容量 和 访问 时 间 随 着 与 处 理 器 距 
0 而 增加 。 
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存储 器 层次 结构 可 以 由 多 层 构 成 ， 但 是 数据 每 次 只 能 在 相 邻 的 两 个 层次 之 间 进行 复制 。 因 此 我 
们 将 注意 力 重点 集中 在 两 个 层次 上 。 高 层 的 存储 器 靠近 处 理 器 ， 比 低层 存储 器 容量 小 且 访 问 速度 更 
快 ， 这 是 因为 它 采 用 了 成 本 更 高 的 技术 来 实现 的 。 如 图 5-2 中 所 示 ， 我 们 将 一 个 两 级 层次 结构 中 存 
储 信息 的 最 小 单元 称 为 块 (block) 或 行 (line)?， 就 像 在 图 书馆 中 ， 一 个 信息 块 就 是 一 本 书 。 





速度 容量 大 小 ”成 本 ( $bit ) ”当前 技术 
最 快 的 最 小 的 最 高 的 SRAM 
DRAM 
最 慢 的 最 大 的 最 低 的 磁盘 
图 5-1 存储 器 层次 的 基本 结构 图 5-2 存储 器 层次 结构 中 的 每 两 个 层次 可 以 
存储 系统 采用 层次 结构 后 ， 用 户 对 于 存储 器 的 认识 就 是 : 它 被 认为 一 个 是 高 层次 ， 一 个 是 低层 次 


的 容量 和 层次 结构 和 容量 最 大 的 那 层 存储 器 相同 ， 而 访问 速度 在 每 一 层 中 ， 那 些 存储 信息 的 最 小 单元 被 称 为 块 
和 最 快 的 那 层 存储 器 相当 。 在 很 多 嵌入 式 系统 中 ， 闪 存 已 经 代 或 者 行 。 通 常 在 层次 之 间 复 制 时 按 整 块 进行 传输 。 
类 了 磁盘 ， 对 于 台式 计算 机 和 服务 器 来 说 可 能 会 在 存储 层次 中 

引入 新 的 一 层 ; 见 6.4 节 。 

如 果 处 理 器 需要 的 数据 存放 在 高 层 存 储 器 中 的 某 个 块 中 ， 则 称 为 一 次 命中 〈 这 就 好 像 正 好 
从 书桌 上 的 一 本 书 中 找到 所 需 的 信息 一 样 ) 。 如 果 在 高 层 存储 器 中 没有 找到 所 需 的 数据 ， 这 次 数 
据 请 求 则 称 为 一 次 缺失 。 随 后 访问 低层 存储 器 来 寻找 包含 所 需 数据 的 那 一 块 〈 如 同 从 书桌 旁 走 
到 书架 前 去 寻 苞 所 需 的 书籍 ) 。 命 中 率 ”， 或 命中 比率 ， 是 在 高 层 存储 器 中 找到 数据 的 存储 访问 
比例 ， 通 常 被 当成 存储 器 层次 结构 性 能 的 一 个 衡量 标准 。 缺 失 率 ?(1 - 命中 率 ) 则 是 数据 在 高 层 
存储 器 中 没有 找到 的 存储 访问 比例 。 

追求 高 性 能 是 我 们 使 用 存储 器 层次 结构 的 主要 目的 ， 因 而 命中 和 缺失 的 执行 时 间 就 显得 万 
为 重要 。 命 中 时 间 “ 是 指 访问 存储 器 层次 结构 中 的 高 层 存 储 器 所 需要 的 时 间 ， 包 括 了 判断 当前 访 
问 是 命中 还 是 缺 笑 所 需 的 时 间 〈 浏 览 书 桌 上 书 闵 所 花费 的 时 间 ) 。 缺 失 代 价 * 是 将 相应 的 块 从 低 
层 存 储 器 替换 到 禹 层 存 储 器 中 ， 以 及 将 该 信息 块 传送 给 处 理 器 的 时 间 之 和 (从 书架 上 取 另 一 本 
书 并 将 它 放 到 果 上 的 时 间 ) ， 由 于 较 高 存储 层次 容量 较 小 并 且 使 用 了 快速 的 存储 器 部 件 ， 因 此 比 
起 对 存储 层次 中 较 低层 的 访 间 ， 命 中 时 间 要 少 得 多 ， 这 也 是 缺失 代价 的 主要 组 成 部 分 。 (同样 ， 
查找 书 泉 上 书籍 的 时 间 比 站 起 杀 到 书 淋 前 查找 一 本 新 书 所 知 的 时 间 要 少 得 多 )。 

在 这 一 章 中 我 们 也 将 看 到 ， 用 来 检 建 存储 器 层次 结构 的 这 些 概念 也 将 影响 到 一 台 计 算 机 的 
许多 其 他 方面 ， 包 括 操 作 系 统 如 何 管理 存储 器 和 IO， 编 译 器 如 何 产生 代码 ， 甚 至 对 应 用 程序 如 
何 使 用 计算 机 也 产生 一 定 影响 。 当 然 ， 由 于 所 有 程序 花费 太 量 时 间 访 问 存 储 器 ， 因 而 存储 系统 必 
然 成 为 评估 机 器 性 能 的 一 个 主要 指标 。 科 用 存储 唤 层 次 结构 来 达到 性 能 的 提升 意味 着 ， 在 过 去 
程序 员 可 以 把 存储 器 看 成 是 一 个 平台 随机 访问 存储 设备 ， 而 现在 必须 理解 存储 层次 结构 如 何 工 
作 才 能 获得 良好 的 性 能 。 稍 后 我 们 将 举例 来 说 明 其 重要 性 〈 见 图 5-18) 。 


加 块 (block) 或 行 (line) ， 可 存在 于 或 不 存在 于 cache 中 的 信息 的 最 小 单元 。 
命中 率 (hit rate) ; 在 高 层 存储 器 中 找到 目标 数据 的 存储 访问 比例 。 
缺失 率 (〈miss rate) : 在 高 层 存储 器 中 没有 找到 目标 数据 的 存储 访问 比例 。 ; 
命中 时 间 (hit time) : 访问 某 存储 器 层次 结构 所 需要 的 时 间 ， 包 括 了 判断 当前 访问 是 命中 还 是 缺失 所 需 的 时 间 。 
缺失 代价 (miss penalty) : 将 相应 的 块 从 低层 存储 器 替换 到 高 层 存储 器 所 需 的 时 间 ， 包 括 访问 块 、 将 数据 逐 层 人 
输 、 将 数据 插 人 发生 缺 失 的 层 和 将 信息 块 传送 给 请 求 者 的 时 间 。 






BOD 
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由 于 存储 系统 对 性 能 至 关 重 要 ， 计 算 机 设计 人 员 花 费 了 大 量 精力 在 这 些 系统 上 ， 并 致力 于 
开发 复杂 的 机 制 来 提高 存储 系统 的 性 能 。 本 章 我 们 主要 讨论 概念 性 的 观点 ， 为 了 不 至 于 使 篇 幅 
过 长 和 使 内 容 太 复杂 ， 简 化 和 抽象 了 许多 概念 。 
重点 

程序 不 仅 表现 出 时 间 局 部 性 ， 即 重复 使 用 最 近 被 访问 的 数据 项 的 趋势 ， 同 时 也 表现 出 了 空 
间 局 部 性 ， 即 访问 与 最 近 被 访问 过 的 数据 项 地 址 空间 相近 的 数据 项 的 趋势 。 存 储 器 层次 结构 利 
用 了 时 间 局 部 性 ， 将 最 近 被 访问 的 数据 放 在 靠近 处 理 器 的 地 方 ; 同时 它 也 利用 了 空间 局 部 性 ， 将 
一 些 包含 连续 字 的 块 移 至 存储 器 层次 结构 的 较 高 层次 。 

如 图 5-3 所 示 ， 在 存储 器 层次 结构 中 ， 离 处 理 器 越 近 的 层次 容量 越 小 ， 速 度 越 快 。 因 此 ， 数 
据 在 层次 结构 中 的 最 高 苦命 中 能 被 很 人 处理 。 而 铁 失 后 ， 需 要 访问 容量 大 但 速度 慢 的 低层 存储 
层次 。 如 果 命 中 率 足 够 高 ， 存 储 器 层次 结构 就 会 拥有 接近 最 高 (而 且 最 快 ) 层次 的 访问 速度 和 


接近 最 低 (也 是 最 大 ) 层次 的 容量 。 
CPU 





访 问 时 间 随 ay] 二 | 生 
离 CPU 距 训 图 5-3 这 幅 图 说 明了 存储 器 层次 结构 : 高 
处 理 器 越 远 ， 容 量 越 大 
存储 层次 结构 一 当 采 用 合适 的 操作 机 制 时 ， 这 种 结构 允许 处 理 器 
中 的 每 一 层 \ 的 访问 时 间 主 要 由 层次 结构 中 的 第 一 层 来 决定 ， 而 


整个 仓储 器 的 容量 则 和 第 =” 层 一 样 大 。 本 章 的 主题 就 
是 要 实现 这 种 结构 。 尽 管 本 地 磁盘 一 般 位 于 存储 层 
次 结构 的 底层 ， 但 是 一 些 系统 会 使 用 磁带 或 者 局 域 
网 内 的 文件 系统 作为 层次 结构 的 更 下 一 层 。 


每 一 层 中 存储 器 的 容量 大 小 


在 很 多 系统 中 ,存储器 是 一 个 真实 的 层次 结构 ， 这 意味 着 除非 数据 在 第 i+1 层 存 在 ， 否 则 
绝 不 可 能 在 第 iE 层 中 存在 。 





下 面 哪些 表述 通常 是 正确 的 ? 

A. cache 利用 了 时 间 局 部 性 。 

B. 在 一 次 读 操作 中 ,返回 的 值 取决 于 哪些 块 在 cache 中 。 
C. 存储 器 层次 结构 的 大 部 分 成 本 在 于 最 高 一 层 。 

D. 存储 器 层次 结构 的 大 部 分 容量 处 于 最 低 一 层 。 


5.2 cache 的 基本 原理 
cache: 一 个 隐藏 或 者 存储 信息 的 安全 场所 。 
《Webster’s New World Dictionary of the American Language》， 
Third College Edition ，1988 
在 前 面 介绍 的 图 书馆 例子 中 ， 书 桌 就 好 比 是 高 速 缓 存 (cache) 一 个 存放 待 用 事物 (书籍 ) 
的 安全 场所 。 在 早期 的 商业 计算 机 中 ，cache 是 处 理 器 和 主 存 之 间 的 特殊 层次 。 在 第 4 章 数 据 通路 中 ， 
存储 器 就 被 cache 简单 地 替代 了 。 现 在 ， 尽 管 cache 的 使 用 占 据 了 主导 地 位 ， 但 该 术语 也 用 来 指 代 那 些 
基于 局 部 性 原理 来 管理 的 存储 器 。cache 最 早出 现在 20 志 纪 60 年 代 的 研究 型 计算 机 中 ， 后 期 则 被 应 用 
于 产品 型 计算 机 。 如 今生 产 的 每 一 台 通 用 计算 机 ， 从 服务 器 到 低 功 耗 戏 人 式 处 理 器 ， 都 含有 cache 。 
在 这 一 节 中 ， 我 们 先 来 看 一 个 简单 的 cache ， 处 理 器 每 次 请 求 一 个 字 ， 每 个 块 也 由 一 个 单独 
的 字 组 成 〈 已 经 熟悉 cache 基本 原理 的 读者 可 以 跳 至 5.3 节 )。 图 5-4 就 是 一 个 简单 的 cache， 要 
访问 的 数据 项 最 初 不 在 cache 中 。 在 请 求 发 出 之 前 ，cache 中 保存 了 最 近 所 访问 过 的 数据 项 从 | ， 
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X, ，…，X,，| 的 集合， 而 当前 处 理 器 所 要 访问 的 数据 项 X, 并 不 在 cache 中 。 该 请 求 导 致 了 一 次 
缺失 ，X, 被 从 主 存 调 人 cache 之 中 。 

观察 图 5-4 中 的 情景 ， 有 两 个 问题 需要 解决 : 我 们 怎 
样 知道 一 个 数据 项 是 否 在 cache 中 ? 此外， 如 果 数 据 项 在 
cache 中 ， 我 们 如 何 找到 它 ? 这 两 个 问题 的 答案 是 相关 的 。 
如 果 每 个 字 都 放 在 cache 中 确定 的 位 置 ， 那 么 只 要 它 在 
cache 中 ， 我 们 就 能 直接 找到 它 。 在 cache 中 为 主 存 中 每 个 
字 分 配 一 个 位 置 的 最 简单 方法 就 是 根据 这 个 字 的 主 存 地 址 
进行 分 配 ， 这 种 cache 结构 称 为 直接 映射 ”。 每 个 主 存 地 





址 对 应 到 cache 中 一 个 确定 的 地 址 。 对 直接 映射 cache 来 。 “> 访问 X, 之 前 b) 访问 X, 之 后 

说 ， 主 存 地 址 和 cache 位 置 之 间 的 典型 上 映射 通常 比较 简单 。 5-4 对 字 X 访问 前 后 cache 中 的 

例如 ， 几 乎 所 有 的 直接 映射 cache 都 使 用 以 下 的 映射 方法 : 内 容 ， 最 初 X 不 在 cache 中 
( 块 地 址 ) mod (cache 中 的 块 数 ) 这 次 访问 引起 了 一 次 缺失 ， 并 强制 cache 从 存 


如 果 cache 中 的 块 数 是 2 的 寒 ， 取 模 的 计算 就 很 简单 ， 售 名 中 取 回 和， 随后 将 X 族人 cache 中 。 
只 需要 取 地 址 的 低 log，( 块 中 的 cache 容量 ) 位 。 因 此 ， 一 个 8 块 的 cache 可 以 使 用 块 地 址 中 最 
低 的 三 位 (8 =2) 。 例 如 ,图 5-5 中 ， 直 接 映射 的 cache 块 大 小 为 8 个 字 ， 存储 器 地 址 1 
(00001,) 到 29。(11101,) 被 映射 到 cache 中 1。(001,) 到 5,。(101,) 的 位 置 。 

由 于 cache 中 每 个 位 置 可 能 对 应 于 主 存 中 多 个 不 同 的 地 址 ， 我 们 如 何 知道 cache 中 的 数据 项 是 
否 是 所 请 求 的 字 呢 ? 即 如 何 知 道 所 请 求 的 字 是 否 在 cache 中 ? 我 们 可 以 在 cache 中 增加 一 组 标记 8 ， 
标记 中 包含 了 地 址 信息 ， 这 些 地 址 信息 可 以 用 来 判断 cache 中 的 字 是 否 就 是 所 请 求 的 字 。 标 记 只 需 
包含 地 址 的 高 位 ， 也 就 是 没有 用 来 检索 cache 的 那些 位 。 例 如 ， 在 图 5-5 中 ,标记 位 只 需 使 用 5 位 
地 址 中 的 高 两 位 ， 地 址 低 3 位 的 索引 域 则 用 来 选择 cache 中 的 块 。 按 照 定 义 ， 任 何 一 个 可 以 放 人 相 
同 cache 块 中 的 字 的 地 址 的 索引 域 一 定 是 那个 块 的 块 号 ， 因 此 标记 位 无 需 包含 这 些 宛 余 的 索引 位 。 


5-5 ” 主 存 地 址 0 ~31 被 映射 
到 cache 中 的 相同 位 置 ， 
该 cache 中 有 8 个 字 
由 于 cache 中 有 8 个 字 ， 地 址 X 被 映 
射 到 直接 映射 cache 字 X mod 8。 即 ， 低 
logz(8) =3 被 用 作 cache 索引 。 因 此 ， 
地 址 00001: 、01001: 、10001 和 11001， 
-> 都 对 应 于 cache 中 第 001, 块 ， 而 地 址 
00101: 、01101，、10101， 和 11101, 都 对 
应 于 cache 中 第 101, 块 。 





00001 00101 0I00 O1101 10001 10101 11001 11101 
存储 器 


我 们 还 需要 一 种 方法 来 判断 cache 块 中 确实 没有 包含 有 效 信息 。 例 如 ， 当 一 个 处 理 器 启动 时 ， 
cache 中 没有 数据 ， 标 记 域 中 的 值 没有 意义 。 甚 至 在 执行 了 一 些 指令 后 ，cache 中 的 一 些 块 依然 为 
空 ， 如 图 5-4 所 示 。 因 此 ,在 cache 中 ， 这 些 块 的 标记 应 该 被 忽略 。 最 常用 的 方法 就 是 增加 一 个 有 
效 位 来 标识 一 个 块 是 否 含有 一 个 有 效 地 址 。 如 果 该 位 没有 被 设置 ， 则 不 能 使 用 该 块 中 的 内 容 。 

在 本 节 的 剩余 部 分 ， 我们 将 重点 说 明 如 何在 cache 中 进行 读 操作 。 通常 来 说 ， 由 于 读 操作 不 


加 ”直接 映射 (direct mapped) : 一 种 cache 结构 ， 其 中 每 个 主 存 地 址 仅仅 对 应 到 cache 中 的 一 个 位 置 ， 
电 标记 (tag): 表 中 的 一 个 字段 ， 包 含 了 地 址 信息 ， 这 些 地 址 信息 可 以 用 来 判断 cache 中 的 字 是 否 就 是 所 请 求 的 字 。 
合 有 效 位 (valid bit) ; 表 中 的 一 个 字段 ， 用 来 标识 一 个 块 是 否 含有 一 个 有 效 数据 。 
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会 改变 cache 中 的 内 容 ， 因 而 处 理 时 比 写 操作 要 简单 一 些 。 在 探讨 了 读 操 作 和 cache 缺失 如 何 处 
理 的 基本 原理 后 ， 我 们 将 介绍 实际 计算 机 中 cache 的 设计 以 及 cache 如 何 处 理 写 操作 。 


5.2.1 cache 访问 


下 面 是 对 一 个 容量 为 8 块 的 空 cache 进行 9 次 访问 的 一 个 序列 ， 包 括 每 次 访问 的 行为 。 
访问 的 十 进 制 地 址 | ”访问 的 二 进 制 地 址 在 cache 中 命中 /缺失 | 分 配 的 cache 块 《查找 或 者 放置 的 位 置 ) 
22 


”10110, | 缺失 (7.6b) | (10110, mod 8) =110, 
26 (i010, mod 8) =010, 
22 (10110, mod 8) =110, 
26 (11016, mod 8) =010， 
16 (10000, mod 8) =000, 
3 (00011, mod 8) =011, 
16 (10000, mod 8) =006, 
18 (10010, mod 8) =010, 


16 10000,， | _ 命中 | (10000, mod 8) =000, 
图 5-6 给 出 了 每 一 次 缺失 后 cache 内 容 的 变化 。 由 于 cache 中 有 8 个 块 ， 地 址 的 低 3 位 给 出 了 块 号 。 




































索引 ， 有 效 位 (VY) ) ”数据 ESE 
oo | Ns | 001 | | 
| | NN | 
_00 | N | | | _00 | N | | | 
_o01 | NN “| | OIL N | I | 
| IN | | | 
101 | nN | 1 | 
10 |  Y | 16。」 主 存 (10110;) 
b) 
ERT 
_00 | Y | 10 | 主 存 (100060,) 
_ ol | NN | | ~ | 
主 存 (11010,) 
ol N | | | 
0 | ws | Tr | 
1l0 | Y | 10, | 主 存 C10110;) 
II NN | TT  “ | 
d) 
ETE 
_ 00 | YY | 10，| 主 存 (10000,) 
oo | N | | | 
_010 |  Y | 6 | 主 存 (10010;) 
ol | YY | 00, | 主 存 C000i) 
10| N | | 
Il N | | 
110 | YY | 10, | 主 丰 C10110;) | 
ml ww TT TT ~” 
f) 





图 5-6 对 相应 的 地 址 序列 给 出 每 次 请 求 缺失 后 cache 
a) 局 动 后 cache 的 初始 状态 ; b) 处 理 地 址 (10110, ) 
d) 处 理 地 址 (10000,) 缺失 后 ; e) 处 理 地 址 (00011 


中 的 内 容 、 索 引 和 标记 域 (二 进 制 表 示 ) 
缺失 后 ; c) 处 理 地 址 (11010,) 缺失 后 ; 


2) 缺失 后 ; {) 处 理 地址 (10010; ) 缺失 后 


cache 初始 为 空 ， 所 有 的 有 效 位 关闭 (N)。 处 理 器 请 求 以 下 地 址 : 10110，( 缺失 )、 11010; 〈 缺失 ) 、 
1I0110: (命中 ) 、11010。 (命中 ) 、10000, 《缺失 )》、 00011: (缺失 ) 、10000; 〈 命 中 ) 、10010。( 缺 失 ) 以 及 
10000。 (命中 )。 这 些 图 指出 了 依次 出 现 的 每 一 次 缺失 处 理 后 cache 中 的 内 容 。 当 地 址 10010。(18) 被 访问 
了 时， 地 址 为 11010。(26) 中 的 项 就 要 被 替换 掉 ， 随后 再 访问 11010, 会 引起 缺失 。 标记 域 只 包含 地 址 的 高 位 部 
分 。cache 块 i、 标 记 域 为 j 的 字 的 完整 地 址 是 j x8 +i， 或 者 等 效 为 地 址 域 / 和 索引 i 的 连接 。 例 如 ， 上 面 的 f 


图 中 ， 索引 010， ™ 标记 为 10, 的 块 ， 对 应 地 址 10010, 。 
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由 于 cache 初始 为 空 ， 第 一 次 访问 的 一 些 数据 都 会 发 生 缺 失 。 图 5-6 对 每 一 次 访问 行为 进行 
了 描述 。 第 8 次 访问 将 会 对 cache 中 的 一 个 块 产生 冲突 的 请 求 。 地 址 18 (10010, ) 的 字 将 被 取 到 
cache 的 第 2 块 (010,) 中 。 因 此 ， 它 将 替换 掉 原 先 存在 于 cache 第 2 块 (010,) 中 的 地 址 为 26 
(11010,) 中 的 字 。 这 种 行为 令 cache 具有 时 间 局 部 性 : 最 近 访 问 过 的 字 替 换 掉 较 早 访问 的 字 。 

上 述 情 况 就 好 比 要 从 书架 上 取 一 本 书 ， 而 书桌 上 已 经 没有 任何 地 方 可 以 放 这 本 书 了 ， 因 此 
原先 捍 在 书桌 的 某 本 书 必须 被 放 回 书架 。 在 直接 映射 cache 中 ， 只 有 一 个 位 置 可 以 存放 最 新 请 求 
的 数据 项 ， 因 此 对 于 哪个 数据 项 被 替换 也 只 有 一 种 选择 。 

对 每 个 可 能 的 地 址 ， 在 cache 中 进行 如 下 查找 : 地 址 的 低位 用 来 找到 cache 中 与 该 地 址 匹配 
的 唯一 项 。 图 $-7 说 明 一 个 地 址 可 以 划分 为 : 

。 标记 域 : 用 来 与 cache 中 标记 域 的 值 进行 比较 。 

s cache 索引 : 用 来 选择 块 。 


地 址 ( 说 明 地 址 每 一 位 的 位 置 ) 
3130 … 131211 … 2 10 


字 节 内 
偏 移 


命中 
数据 





舌 引 


5-7 对 这 个 cache， 地 址 的 低位 用 来 选择 由 数据 字 和 标记 组 成 的 一 个 cache 项 
这 个 cache 中 有 1024 个 字 或 者 4 KB。 在 这 一 章 中 ,我 们 假设 使 用 32 位 的 地 址 。cache 中 的 标记 与 地 址 高 位 相 
比较 ,判断 cache 中 的 项 是 否 符合 请 求 的 地 址 。 由 于 cache 有 21 (1024) 个 字 ， 块 大 小 为 1 个 字 ， 因 此 ， 索 引 
cache 需要 10 位 ， 剩 下 的 32 - 10 -2 =20. 位 用 来 和 标记 相 比 较 。 如 果 标 记 和 地 址 的 高 20 位 相等 ， 并 且 有 效 位 开 
启 ， 那 么 请 求 在 cache 中 命中 ， 相 应 的 字 被 提供 给 处 理 器 。 否则 就 发 生 人 缺失 。 


cache 块 的 索引 以 及 标记 唯一 确定 了 cache 块 中 存放 内 容 的 主 存 地 址 。 由 于 索引 域 用 来 寻 址 ， 
而 且 一 个 nn 位 的 域 有 2" 种 值 ， 直 接 映射 cache 中 项 的 总 数 必须 为 2 的 备 。 在 MIPS 体系 结构 中 ， 
由 于 字 是 以 4 字 节 的 倍数 对 齐 的 ， 每 个 地 址 至 少 有 两 位 用 来 指定 字 中 的 一 个 字 节 。 央 此 当选 择 块 
中 的 一 个 字 时 至 少 两 位 被 忽略 。 

由 于 cache 不 仅 存储 数据 而 且 存储 标记 位 ，cache 所 需 的 总 位 数 是 cache 大 小 和 地 址 位 数 的 函 
数 。 在 前 文中 提 及 的 块 大 小 为 1 个 字 ， 但 通常 块 大 小 为 多 字 。 就 像 下 面 的 情况 

。 32 位 字 节 地 址 。 
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e 直接 映射 cache。 
e cache 大 小 为 2 个 块 ， 因 此 n 位 被 用 来 案 引 。 
e 块 大 小 为 2" 个 字 (2”"“ 个 字 节 ) ， 因 此 m 位 用 来 查找 块 中 的 字 ， 两 位 是 字 节 偏 移 信息 。 
标记 域 的 大 小 为 
32 - (n+m+2) 


直接 映射 的 cache 总 位 数 为 
2”x( 块 大 小 + 标记 域 大 小 + 有 效 位 域 大 小 ) 
块 大 小 为 2" 个 字 (2” 位) ， 同 时 我 们 需要 1 位 有 效 位 ， 因 此 这 样 一 个 cache 的 位 数 是 
2 x(2" x32+(32-n~-m-2)+1) =2”"x(2” x32+3l1 -nn-m) 

尽管 以 上 计算 是 实际 的 大 小 ， 但 是 通常 对 cache 命名 只 考虑 数据 的 大 小 而 不 考虑 标记 域 和 有 
效 位 域 的 大 小 。 因 此 图 5-7 中 是 一 个 4 KB 的 cache。 
cache 中 的 位 数 

假设 一 个 直接 映射 的 cache， 有 16 KB 的 数据 ， 块 大 小 为 4 个 字 ， 地 址 为 32 位 ， 那 么 该 cache 
总 共 需 要 多 少 位 ? 

我 们 知道 16 KB 是 4K (2 ) 字 ， 块 大 小 是 4 个 字 (2*)， 那 么 就 有 1024 (2”) 个 块 。 每 个 
块 有 4x32 即 128 位 的 数据 ， 加 上 32 -10 -2 -2 位 的 标记 域 ， 再 加 上 一 个 有 效 位 ， 因 此 ， 总 的 
cache 大 小 是 

2 " x(4x32+(32 -10-2-2) +1) =28x147 =147 Kbits 

即 能 效 16 KB 数据 的 cache 总 共 需 要 18.4 KB 的 容量 。 这 个 cache 的 总 位 数 是 数据 存储 量 的 1.15 倍 。 
将 一 个 地 址 映射 到 多 字 大 小 的 cache 块 中 

考虑 一 个 cache 中 有 64 个 块 ， 每 块 大 小 为 16 字 节 ， 那 么 字 节 地 址 为 1200 将 被 映射 到 cache 
中 的 哪 一 块 ? 
答案 

块 由 下 面 公式 给 出 : 

( 块 地 址 ) mod (cache 中 的 块 数 ) 

其 中 块 地 址 为 

字 节 地 址 /每 块 字 节 数 
注意 ， 这 个 块 地 址 包含 了 所 有 在 


| x 每 志 字 池 娄 


每 块 字 节 数 
和 
字 节 地 址 > 
之 间 的 地 址 。 


因此 ， 册 于 每 个 块 有 16 个 字 节 ， 字 节 地 址 1200 对 应 的 块 地 址 为 


1200 
2 |=75 


对 应 于 cache 中 的 块 号 (75 mod 64) =11。 事实 上 ， 地 址 1200 和 1215 之 间 的 所 有 地 址 都 映 
射 在 这 一 块 。 : 

较 大 的 cache 块 能 更 好 地 利用 空间 局 部 性 以 降低 缺失 率 。 如 图 5-8 所 未 ， 增 加 块 大 小 通常 会 
引起 缺失 率 下 降 。 而 当 块 大 小 在 cache 容量 中 所 占 比 例 增加 到 一 定 程度 时 ， 缺 失 率 也 随 之 增加 。 
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这 是 因为 此 时 cache 中 块 的 数量 变 得 很 少 ， 对 于 这 些 块 将 会 有 大 量 的 竞争 发 生 。 结 果 ， 就 造成 一 
个 块 中 的 数据 在 被 多 次 访问 之 前 就 被 蔡 换 出 cache。 另 一 方面 ， 对 于 一 个 太 大 的 块 ， 块 中 各 个 字 
之 间 的 空间 局 部 性 也 会 降低 ， 缺 失 率 降低 所 带 来 的 益处 也 会 相应 减少 。 

仅仅 增加 块 大 小 所 带 来 的 一 个 更 加 严重 的 后 果 是 缺失 成 本 的 增加 。 由 较 低 存储 层次 取出 块 
并 存放 至 cache 中 所 花费 的 时 间 决 定 了 缺失 代价 。 取 出 块 的 时 间 可 以 分 为 两 部 分 : 第 一 个 字 的 迁 
迟 时 间 和 剩余 部 分 块 的 传输 时 间 。 很 显然 ， 除 非 改变 存储 系统 ， 否 则 ， 传 输 时 间 ， 也 就 是 缺失 代 
价 将 随 着 块 大 小 的 增 大 而 增加 。 此 外 ， 当 块 越 来 越 大 时 ， 缺 失 率 的 改善 也 开始 降低 。 而 当 块 过 于 
大 时 ， 缺 失 代 价 的 增长 超过 了 缺失 率 的 降低 ， 因 此 cache 的 性 能 也 随 之 降低 。 当 然 ， 如 果 把 存储 
器 设计 得 能 更 有 效 地 传输 较 大 的 块 时 ， 我 们 就 能 增加 块 的 大 小 并 且 进 一 步 改善 cache 性 能 。 这 一 
点 我 们 将 在 下 一 节 讨 论 。 


人 


16 32 64 128 256 
块 大 小 


图 5-8 缺失 率 与 块 大 小 
注意 到 如 果 相 对 于 cache 容量 来 说 ， 块 大 小 太 大 ， 缺 失 率 实际 上 是 上 升 的 。 每 条 曲线 代表 不 同 容 量 的 cache 
(图 中 没有 考虑 关联 度 ， 稍 后 讨论 ) 。 可 惜 的 是 ， 如 果 包 括 块 大 小 ， 那 么 SPEC2000 追踪 信息 将 花费 太 长 的 时 
间 ， 因 此 这 些 数据 都 基于 SPEC92 。 


精 解 : 缺失 时 ， 较 大 的 块 会 带 来 长 延迟 从 而 增加 了 缺失 代价 。 要 减少 这 一 部 分 延迟 尽管 比较 困难 ， 但 
我 们 可 以 通过 隐藏 一 些 传输 时 间 来 有 效 地 降低 缺失 代价 。 最 简单 的 方法 是 提前 重启 (early restart) ， 即 当 块 
中 所 和 需 字 一 旦 返回 就 马上 继续 执行 ， 而 不 需要 等 到 整个 块 都 传 过 来 之 后 再 执行 。 许 多 处 理 器 利用 这 种 技术 
进行 指令 访问 ， 效 果 甚 佳 。 大 部 分 指令 访问 都 具有 连续 性 ， 因 此 存储 系统 每 个 时 钟 周期 都 能 传送 一 个 字 ， 
只 要 存储 系统 能 保证 及 时 传递 新 的 指令 字 ， 那 么 当 所 请 求 的 字 返 回 时 ， 处 理 器 就 可 以 重新 开始 操作 。 将 这 
种 技术 应 用 于 数据 cache 时 效率 要 低 一 些 ， 这 是 因为 所 请 求 的 字 可 能 以 一 种 无 法 预知 的 方式 分 布 ， 而 在 传 
输 结束 前 处 理 器 请 求 男 一 块 中 的 字 的 可 能 性 也 很 高 。 如 果 数 据 传输 正在 进行 ， 处理 器 就 无 法 访问 数据 
cache ， 因 而 它 必然 阻塞 。 

尹 一 种 更 复杂 的 机 制 是 重新 组 织 存 储 器 ， 使 得 被 请 求 的 字 先 从 存储 器 传 到 cache 中 ， 然 后 再 传送 该 块 
的 剩余 部 分 ， 从 所 请 求 的 字 的 下 一 个 地 址 开始 传送 ， 再 回 到 块 的 开始 。 这 种 技术 被 称 为 请 求 字 优 先 (re- 
quested word first) 或 者 关键 字 优 先 (critical word first) ， 它 比 提前 重启 要 快 一 些 ， 但 与 提前 重启 一 样 ， 会 受 
限于 同样 的 问题 。 


5.2.2 cache 缺失 处 理 


在 研究 一 个 真实 系统 中 的 cache 之 前 ， 让 我 们 来 看 一 下 控制 部 件 是 如 何 处 理 cache 缺失 9 的 。 
(在 5.7 节 将 详细 介绍 cache 控制 器 ) 。 控 制 单元 必须 能 检测 到 缺失 的 发 生 ， 然 后 从 主 存 (或 者 较 


因 cache 缺失 : 由 于 数据 不 在 cache 中 而 导致 被 请 求 的 数据 不 能 满足 。 
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低 一 级 cache ) 中 取 回 所 需 的 数据 来 处 理 缺 失 。 如 果 在 cache 中 命中 ， 计算 机 继续 使 用 该 数据 ， 
就 好 像 什么 都 没有 发 生 过 。 

命中 时 ， 对 处 理 理 控制 的 修改 不 太 重 要 ; 缺失 时 则 需要 增加 一 些 额 外 的 工作 。cache 缺失 处 
理由 两 部 分 共同 完成 : 处 理 器 控制 单元 ， 以 及 一 个 进行 初始 化 主 存 访问 和 重新 填充 cache 的 独立 
控制 部 。cache 缺失 引起 流水 线 阻 塞 ( 见 第 4 章 ) ， 这 汪 中 断 不 同 ， 中 断 发 生 时 需要 保存 所 有 寄 
存 表 的 状态 。 当 cache 缺失 ， 我 们 等 待 主 存 操作 完成 时 ， 整 个 处 理 器 阻塞 ， 临 时 寄存 器 和 程序 员 
可 见 寄存 恬 中 的 内 容 基 本 被 冻结 。 与 之 相 比 ， 更 为 复杂 的 乱 序 执行 处 理 器 在 等 待 cache 缺失 处 理 
的 同时 ， 依 然 能 执行 其 他 一 些 指令 。 但 是 ， 在 本 节 中 ， 我 们 均 假 定 为 顺序 执行 处 理 器 ， 当 cache 
缺失 时 其 被 阻塞 。 

让 我 们 再 来 讨论 一 下 指令 发 生 缺 失 时 将 如 何 处 理 ， 同 样 的 方法 略 加 修改 便 可 以 用 来 处 理 数 
据 缺 失 。 如 果 指 令 访问 引起 一 次 缺失 ， 那么 指令 寄存 器 中 的 内 容 无 效 。 为 了 将 正确 的 指令 取 回 
cache， 我 们 必须 通知 存储 器 层次 结构 中 的 较 低 层次 执行 一 次 读 操 作 。 由 于 在 执行 的 第 一 个 时 钟 
周期 ， 程 序 计数 器 加 了 一 个 增 量 ， 因 此 产生 缺失 的 指令 地 址 等 于 程序 计数 器 中 的 值 减 4。 当 地 址 
产生 时 ， 就 可 以 通知 主 存 执行 一 次 读 操作 ， 并 且 等 待 存储 器 的 响应 〈 访 问 主 存 可 能 需要 多 个 时 
钟 周 期 ) ， 随 后 把 取 回 的 字 写 人 cache。 

现在 我 们 可 以 定义 发 生 指 令 cache 缺失 的 处 理 步 又 ， 

1) 把 程序 计数 器 (PC) 的 原始 值 (当前 PC -4) 送 到 存储 器 中 。 

2) 通知 主 存 执 行 一 次 读 操作 ， 并 等 待 主 存 访问 完成 。 

3) 号 cache 项 , 将 从 主 存 取 回 的 数据 写 人 cache 中 存放 数据 的 部 分 ， 并 将 地 址 的 高 位 (从 
ALU 中 得 到 ) 写 和 标记 域 , 设置 有 效 位 。 

4) 重新 返回 指令 执行 第 一 步 ， 重新 取 指 ， 这 次 该 指令 在 cache 中 。 

数据 访问 时 对 cache 的 控制 基本 相同 ; 发 生 缺 失 时 ， 处 理 器 发 生 阻 寨 ， 直到 从 存储 器 中 取 回 
数据 后 才 响 应 。 


3. 2.3 与 操作 处 理 


写 操作 略微 不 同 。 如 果 有 一 个 store 指令 ， 我 们 只 将 该 数据 写 人 数据 cache (而 不 改变 主 存 的 
内 容 ); 那么 ， 在 写 入 cache 之 后 ， 主 存 与 cache 相应 位 置 中 的 值 将 不 同 。 在 这 种 情况 下 ，cache 
和 主 存 被 认为 不 一 致 (inconsistent) 。 保 持 主 存 和 cache 一 致 性 最 简单 的 方法 就 是 将 这 个 数据 同时 
与 信 主 存 和 cache 中 ， 这 种 方法 被 认为 写 直 达 法 9。 

与 操作 要 考虑 的 另 一 个 主要 方面 是 发 生 写 缺 失 的 情况 。 我 们 首先 从 主 存 中 取出 块 中 的 字 。 
数据 块 被 取 回 并 存 人 cache 中 后 ， 我 们 就 可 以 将 引起 缺失 的 字 重 新 写 信 cache 中 。 同 时 ， 我 们 使 
用 全 地 址 将 该 字 写 人 主 存 。 

尽管 这 种 设计 方案 能 简单 地 处 理 写 操作 ， 但 却 无 法 提供 民 好 的 性 能 。 使 用 写 直 达 的 机 制 ， 每 
次 写 操作 都 要 把 数据 写 人 主 存 之 中 。 这 些 写 操作 将 花费 大 量 的 时 间 ， 可 能 至 少 要 花费 100 个 处 理 
侣 轩 钟 周期 ， 并 有 旦 大 大 降低 了 机 器 速度 。 例 如 ， 假 设 10% 的 指令 是 store 指令 ， 没 有 cache 缺失 
的 情况 下 CPI 为 1. 0， 每 次 写 操作 要 额外 花费 100 个 周期 ， 就 使 得 CPI 为 1.0 + 100 x10% = 11， 
性 能 降低 10 倍 多 。 

这 个 问题 的 一 种 解决 方法 是 采用 写 缓冲 9。 当 一 个 数据 在 等 待 被 写 人 主 存 时 ， 先 将 它 放 人 写 
缓冲 中 。 当 把 数据 写 人 cache 和 写 缓冲 后 ， 外 理 器 可 以 继续 执行 。 当 写 主 存 操作 完成 后 ， 写 缓冲 
里 的 数据 项 也 得 到 释放 。 如 果 写 缓冲 已 经 满 了 ， 那 么 当 处 理 器 执行 到 一 个 写 操 作 时 就 必须 停 下 


护 “ 写 直达 法 (write-through) ， 也 译 为 写 通过 。 写 操作 总 是 同时 更 新 主 存 和 eache， 以 保持 二 者 一 致 性 的 一 种 方 法 
加 与 缓 冲 (write buffer) : 一 个 保存 等 待 写 人 主 存 数据 的 缓冲 队列 。 
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来 直到 写 缓 冲 中 有 一 个 空位 置 。 当 然 ， 如 果 存 储 器 完成 写 操作 的 速度 比 处 理 器 产生 写 操 作 的 速 
上 度 要 慢 ， 那么 再 多 的 缓冲 器 也 没有 用 ， 因 为 产生 写 操 作 比 存储 系统 接收 它们 要 快 。 

产生 写 操作 的 速度 也 可 能 比 存储 器 接收 它们 的 速度 要 慢 ， 尽 管 这 样 ， 仍 有 可 能 发 生 阻 塞 。 当 
写 操作 突 发 产生 时 ， 这 种 情况 就 会 发 生 。 为 了 减少 这 种 阻塞 的 发 生 ， 通 常 需要 增加 处 理 器 写 缓 冲 
的 深度 。 

除了 写 直 达 ， 另 一 种 可 供 选 择 的 方法 为 写 回 机 制 ? 。 在 写 回 机 制 中 ， 当 发 生 写 操作 时 ， 新 值 
仅仅 被 写 入 cache 块 中 。 愉 有 当 修 改过 的 块 被 蔡 换 时 才 需 要 写 到 较 低层 存储 结构 中 。 写 回 机 制 可 
以 提高 系统 的 性 能 ， 尤 其 是 当 处 理 占 产生 写 操 作 的 速度 和 主 存 处 理 写 操作 的 速度 一 样 快 甚至 更 
快 时 ; 但 是 ， 写 回 机 制 的 实现 也 比 写 直达 要 复杂 得 多 。 

在 本 节 的 剩余 部 分 ， 我 们 介绍 实际 处 理 器 中 的 eache， 探 讨 它们 如 何 处 理 读 和 写 操 作 。 在 
5.5 节 ， 我 们 会 对 写 操 作 进 行 更 详细 的 介绍 。 

精 解 : 写 操 作 将 读 操作 中 不 存在 的 一 些 复杂 情况 引 人 了 cache。 这 里 我 们 讨论 其 中 的 两 种 情况 ， 写 缺失 
时 的 策略 以 及 使 用 写 回 机 制 的 cache 中 写 操作 的 有 效 执行 。 

考虑 在 写 直 达 机 制 下 的 cache 缺失 ， 最 常 使 用 的 策略 是 分 配 cache 中 的 一 块 ， 称 为 写 分 配 《write allo- 
cate) 。 数 据 块 从 主 存 中 取 回 ， 并 且 在 该 块 中 的 恰当 区 域 重 写 数据 。 另 一 种 策略 则 是 只 更 新 主 存 中 块 的 一 部 
分 ， 而 不 写 人 cache 中 。 这 种 方法 称 为 写 不 分 配 (no write alocate) 。 这 种 机 制 产生 的 原因 是 ， 有 时 程序 会 
与 整个 块 ， 就 像 有 时 操作 系统 会 将 存储 器 中 的 一 页 全 部 填 零 一 样 。 在 这 种 情况 下 ， 由 初始 的 写 缺 失 引 起 的 
取 数 据 就 不 必要 了 。 一 些 计 算 机 人 允许 基于 每 一 页 来 更 改写 分 配 策略 。 

使 用 写 回 策略 的 cache 比 使 用 写 直达 策略 的 cache 实现 有 效 存储 要 复杂 得 多 。 在 写 直 达 的 cache 中 ,可 
以 将 数据 写 人 cache 并 且 读 标 记 ， 如 果 标 记 不 匹配 ， 就 发 生 缺 失 。 由 于 cache 采用 写 直达 策略 ， 在 cache 中 
重 号 数据 块 并 不 会 有 危险 ， 因 为 主 存 中 存储 了 正确 的 值 。 在 写 回 cache 中 ， 如 果 eache 中 的 数据 被 重 写 过 并 
且 此 时 发 生 缺 失 ， 就 必须 把 整 块 写 回 主 存 中 。 如 果 在 不 知道 cache 是 否 命中 (在 写 直 达 的 cache 中 可 以 知 
道 ) 的 情况 下 就 简单 地 根据 存储 指令 重 写 块 ， 我 们 就 破坏 了 块 的 内 容 ， 而 块 本 身 也 没有 在 存储 层 的 较 低层 
进行 备份 。 

在 写 回 cache 中 ， 由 于 无 法 重 写 块 ， 存 储 操 作 需 要 两 个 周期 (一 个 周期 用 来 检查 命中 情况 ， 下 一 个 周 
期 才 真 正 执行 写 操 作 ) ， 或 者 需要 一 个 写 缓冲 来 保存 数据 一 一 通过 流水 线 有 效 地 使 存储 操作 只 花费 一 个 周 
期 。 如 果 使 用 存储 缓 溃 区 ， 处 理 髓 在 正常 的 cache 访问 周期 内 查找 cache 并 把 数据 放 人 存储 缓冲 区 中 。 如 果 
cache 命中 ， 在 下 一 个 还 没有 用 到 的 cache 访问 周期 ， 新 数据 被 从 存储 缓冲 区 写 入 到 cache 中 。 

相 比 较 而 言 ， 在 写 直达 cache 中 ， 写 操作 总 是 可 以 在 一 个 周期 内 完成 。 我 们 读 标 记 位 ， 并 且 写 被 选择 
决 的 部 分 区 域 。 如 果 标 记 与 被 写 块 的 地 址 相同 ， 处 理 器 通常 可 以 继续 执行 ， 因为 正确 的 块 已 经 被 更 新 过 了 。 
如 果 标 记 与 被 写 块 的 地 址 不 同 ， 处 理 器 产生 写 缺失 并 去 取 对 应 于 该 地 址 块 的 剩余 部 分 。 

很 多 写 回 机 制 的 cache 也 使 用 写 缓冲 ， 当 缺失 替换 一 个 被 修改 的 块 时 ， 写 缓冲 可 以 起 到 降低 缺失 代价 
的 作用 。 在 这 种 情况 下 ， 被 修改 的 数据 块 移 人 与 cache 相 联 的 与 回 缓冲 器 ， 同 时 从 主 存 中 读 出 所 需要 的 数 
据 块 。 随 后 ， 写 回 缓冲 器 再 将 数据 写 人 主 在 。 如 果 下 一 次 缺失 没有 立刻 发 生 ， 当 脏 数据 块 必须 被 替换 时 ， 
这 种 方法 可 以 减少 一 半 的 缺失 代价 。 


5.2.4 一 个 cache 的 例子 :内 置 FastMATH 处 理 器 


内 置 FastMATH 处 理 器 是 一 个 快速 的 媒人 式微 处 理 器 ， 它 采用 MIPS 架构 ，cache 实现 很 简 
单 。 在 本 章 的 最 后 ， 我 们 将 介绍 AMD Opteron X4 (Barcelona) 中 更 为 复杂 的 cache 设计 ， 但 是 出 
于 教学 的 目的 ， 我 们 首先 分 析 这 个 简单 的 实例 .图 5-9 给 出 了 内 置 FastMATH 处 理 器 数据 cache 


加 写 回 机 制 (write-back) : 当 发 生 写 操作 时 ， 新 值 仅仅 被 写 人 cache 氧 中 ， 只 有 当 修改 过 的 块 被 替换 时 才 写 到 较 低 
层 存 储 绪 构 中 。 
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的 结构 。 
地 址 ( 说 明 地 址 每 一 位 的 位 置 ) 
31 …… 14 13 :65 站] 
8 ”J]4 字 节 内 Data 
命中 地 址 标记 偏 移 





块 内 地 址 偏 移 





18 位 
<- 


5-9 内 置 FastMATH 处 理 器 的 16 KB 的 cache，cache 中 有 256 块 ， 每 块 16 个 字 
标记 域 是 18 位 ， 索 引 域 是 8 位 ， 另 有 一 个 4 位 (5 ~2 位 ) 的 域 用 来 索引 块 ， 并 使 用 一 个 16 选 工 的 多 路 选 
择 器 从 块 中 选择 所 需 的 字 。 实 际 上 ， 为 了 消除 多 路 选择 器 ，cache 使 用 一 个 大 容量 的 RAM 单独 存放 数据 ， 一 
个 更 小 的 RAM 则 用 来 存放 标记 ， 大 容量 数据 RAM 所 需 的 额外 地 址 位 由 块 内 偏 移 提供 。 这 样 ， 大 容量 RAM 中 
字 长 为 32 位 ， 字 数 必须 为 cache 中 块 数 的 16 倍 。 


该 处 理 器 采用 12 级 流水 线 结构 ， 就 像 在 第 4 章 中 讨论 的 一 样 。 当 以 峰值 速度 执行 时 ， 处 理 
融 每 个 时 钟 周期 可 以 请 求 一 个 指令 字 和 一 个 数据 字 。 为 了 满足 流水 线 不 阻塞 的 需求 ， 使 用 了 分 
离 的 指令 cache 和 数据 cache。 每 个 cache 容量 为 16 KB， 即 4 字 ， 每 块 有 16 个 字 。 

对 cache 的 读 请 求 很 简单 ， 由 于 使 用 了 分 离 的 指令 cache 和 数据 cache， 读 写 每 个 cache 都 需 
要 各 自 独 立 的 控制 信号 〈 记 住 当 发 生 缺 失 时 ， 需 要 更 新 指令 cache) 。 因 此 ， 对 任何 一 个 cache 执 
行 读 请 求 的 步 又 如 下 : 

1) 将 地 址 送 到 适当 的 cache 中 去 , 该 地 址 来 自 程序 计数 器 (对 于 指令 访问 ) ， 或 者 来 自 于 
ALU (对 于 数据 访问 )。 

2) 如 采 cache 发 出 命中 信号 ， 请 求 的 字 就 出 现在 数据 线 上 。 由 于 在 请 求 的 数据 块 中 有 16 个 
字 ， 因 此 需要 选择 那个 正确 的 字 。 块 索引 域 用 来 控制 多 路 选择 器 (如 图 5-9 底部 所 示 )， 从 检索 
到 的 块 中 选择 16 个 字 中 的 某 个 字 。 

3) 如 果 cache 发 出 缺失 信号 ， 我 们 把 地 址 送 到 主 存 。 当 主 存 返回 数据 时 ， 把 它 写 人 cache 后 
再 读 出 以 满足 请 求 。 . 

对 于 写 操 作 ， 内 置 FastMATH 处 理 器 同时 提供 写 直 达 和 写 回 机 制 ， 由 操作 系统 来 决定 某 种 应 
用 该 使 用 哪个 机 制 。 它 有 一 个 只 包含 一 项 的 写 缓冲 。 

内 置 FastMATH 处 理 器 采用 的 cache 结构 的 缺失 率 是 怎样 的 呢 ? 图 5-10 给 出 了 指令 cache 和 
数据 cache 的 缺失 率 。 综 合 缺 失 率 是 在 考虑 了 指令 和 数据 的 不 同 访问 频率 后 每 个 程序 每 次 访问 的 
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实际 缺失 率 。 


0 | 1. 4% | 2 2% 
5-10 ”内置 FastMATH 处 理 器 执行 SPEC2000 测试 程序 时 指令 和 数据 的 近似 缺失 率 
综合 缺失 率 是 将 16 KB 的 指令 cache 和 16 KB 的 数据 cache 结合 起 来 考虑 的 实际 缺失 率 。 它 是 以 指令 和 数 
据 访问 频率 为 权重 ,分 别 考虑 指令 和 数据 缺失 率 后 得 到 的 。 
尽管 缺失 率 是 cache 设计 的 一 个 重要 标准 ， 但 最 终 的 衡量 标准 是 存储 系统 对 程序 执行 时 间 的 
影响 。 我 们 将 简要 介绍 缺失 率 与 执行 时 间 之 间 的 关系 。 
精 解 : 混合 cache 容量 等 于 两 个 分 离 caches 容量 的 总 和 。 通 常 来 说 ， 混 合 cache 具有 较 高 的 命中 率 ， 
其 原因 是 混合 cache 没有 将 指令 用 的 条 目 数 与 数据 用 的 条 目 数 严格 区 分 出 来 。 不 过 ， 很 多 处 理 器 使 用 分 离 
的 指令 和 数据 cache 以 提高 cache 的 带宽 〈 间 时 也 可 以 减少 冲突 引起 的 缺失 ， 郊 5$.5 节 ) 。 
下 面 是 与 内 置 FastMATH 处 理 器 中 cache 容量 相同 的 cache 的 缺失 率 ， 混 合 cache 的 容量 等 于 
两 个 分 离 cache 容量 之 和 。 
e 总 的 cache 容量 ; 32 KB。 
se 分 离 cache 的 实际 缺失 率 : 3. 24% 。 
es 混合 cache 的 缺失 率 ，3. 18% 。 
分 离 cache 的 缺失 率 只 是 稍 差 一 些 。 
通过 支持 指令 和 数据 同时 访问 来 使 cache 带宽 加 倍 ， 这 一 优点 很 容易 就 克服 了 缺失 率 稍微 增 
加 的 缺点 。 这 一 事实 也 提醒 我 们 缺失 率 不 是 衡量 cache 性 能 的 唯一 标准 ， 正 如 5.3 节 所 示 。 


5.2.5 设计 支持 cache 的 存储 系统 


cache 缺失 时 从 主 存 中 取 数 ， 而 主 存 由 DRAM 构成 。 在 5.1 节 ， 我 们 看 到 DRAM 设计 最 初 的 
重点 在 成 本 和 密度 上 。 尽 管 减少 从 存储 器 取出 第 一 个 字 的 延迟 比较 困难 ， 但 是 我 们 可 以 通过 增 
加 存储 器 和 cache 之 间 的 带宽 来 降低 缺失 代价 。 这 使 我 们 在 使 用 较 大 容量 块 的 同时 ， 仍 然 保 持 与 
较 小 容量 块 相近 的 低 缺 失 代价 。 

通常 来 说 ， 处 理 器 通过 总 线 与 存储 器 相连 (就 像 我 们 将 在 第 6 章 所 见 ， 传 统 在 变革 ， 但 是 实 
际 上 互联 技术 并 没有 变化 ， 因 此 我 们 依然 使 用 总 线 ) 。 总 线 的 时 钟 频率 通常 比 处 理 器 要 慢 很 多 。 
总 线 的 速度 影响 了 缺失 代价 。 

为 了 理解 不 同 存储 器 组 织 结构 的 影响 ， 我 们 定义 了 一 组 存储 器 访问 时 间 ， 假 定 : 

。 发 送 地 址 需要 1 个 存储 器 总 线 时 钟 周期 ; 

。 每 次 DRAM 访问 需要 15 个 存储 器 总 线 时 钟 周期 

。 传送 一 个 数据 字 需 要 1 个 存储 器 总 线 时 钟 周期 。 

如 果 一 个 cache 块 中 有 4 个 字 ，DRAM 的 存储 区 为 一 个 字 宽 ， 缺失 代价 为 1 +4x15+4x1 = 
65 个 存储 器 总 线 时 钟 周期 。 因 此 ， 对 每 次 单独 缺失 ， 每 个 总 线 时 钟 周期 传送 的 字 节 数 为 

4 x4/65 = 0.25 

图 5-11 显示 了 存储 系统 设计 的 三 种 选择 。 第 一 种 选择 延续 了 上 面 的 假设 ， 存储 器 是 一 个 字 
欧 ， 所 有 的 访问 都 是 顺序 执行 。 第 二 种 选择 通过 加 宽 存 储 器 以 及 处 理 器 和 存储 器 之 间 的 总 线 来 
曾 加 存储 器 带宽 ;这 种 方法 允许 并 行 地 访问 块 中 多 个 字 。 第 三 种 选择 没有 加 宽 互 联 总 线 ， 仅 仅 通 





加 ”分离 cache (split cache) ， 一 级 cache 由 两 个 独立 的 cache 组 成 , 两 者 可 以 并 行 工 作 ， 一 个 处 理 指令 ， 另 一 个 处 理 
数据 。 
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过 加 宽 存 储 器 来 增加 带宽 。 因 此 ， 我 们 仍然 需要 花费 时 间 传 输 每 一 个 字 ， 但 可 以 避免 不 止 一 次 的 
访问 延迟 时 间 。 让 我 们 来 看 后 面 两 种 方法 如 何 改 进 图 5-11a 所 示 的 第 一 种 方法 中 的 65 个 时 钟 周 
期 的 缺失 代价 。 








a) b) 更 宽 的 存储 组 织 c) 交叉 存储 组 织 


图 5-11 获得 高 存 依 器 带宽 的 主要 方法 是 增加 存储 系统 的 物理 或 远 辑 宽度 
在 本 图 中 ， 通 过 两 种 方法 来 增加 存储 器 带宽 。 最 简单 的 设计 是 a， 它 使 用 一 个 所 有 部 件 都 是 一 个 字 宽 的 存储 

器 ; b 显示 了 一 个 更 宽 的 存储 器 、 总 线 和 cache; e 使 用 一 个 窗 的 总 线 ， 以 及 一 个 交叉 存 取 的 存储 器 。 在 b 中 ， 

cache 和 处 理 器 之 间 的 逻辑 包括 一 个 用 于 读 操 作 的 多 路 选择 器 以 及 用 于 写 操作 更 新 cache 中 相应 字 的 控制 逻辑 。 

增加 存储 器 和 总 线 的 位 宽 会 相应 地 增加 存储 器 的 带宽 ， 减 少 存 取 时 间 和 传输 时 间 ， 从 而 降 
低 缺 失 代 价 。 当 主 存 位 宽 为 两 个 字 ， 缺 失 代 价 从 65 个 存储 器 总 线 时 钟 周期 降 为 1+(2 x15) + 
“x1=33 个 存储 器 总 线 时 钟 周期 。 对 于 一 个 宽度 为 2 个 字 的 存储 器 来 说 ， 一 次 缺失 的 带宽 是 
0. 48 字 节 /总 线 时 钟 周期 (几乎 是 1 字 宽 的 2 倍 ) 。 这 种 性 能 提高 的 主要 代价 是 使 用 了 宽 总 线 ， 
以 及 在 处 理 器 和 cache 之 间 使 用 多 路 选择 器 和 控制 逻辑 后 带 来 潜在 的 cache 访问 时 间 增加 o 

相对 于 加 宽 存 储 器 和 cache 之 间 的 整个 路 径 ， 存储 器 芯片 可 以 被 组 织 成 多 个 存储 体 
(bank) ， 这 样 每 次 访问 就 可 以 同时 读 / 写 多 个 字 而 不 是 每 次 只 能 读 / 写 一 个 字 。 每 个 存储 体 为 
一 个 字 宽 ， 这 样 ， 总 线 和 cache 的 宽度 就 无 需 改 变 ， 但 是 要 把 一 个 地 址 传 到 多 个 存储 体 则 需要 
允许 它们 同时 读 。 这 种 技术 称 为 交叉 存 取 (interleaving) ， 它 保留 了 整个 存储 器 只 有 一 次 延迟 
的 好 处 。 例 如 ， 存 储 器 有 4 个 存储 体 ， 取 1 个 4 字 的 块 的 时 间 包 括 : 1 个 时 钟 周期 用 来 传送 地 
址 和 读 请 求 到 各 个 存储 体 ，15 个 时 钟 周期 用 于 4 个 存储 体 访问 存储 器 ，4 个 时 钟 周 期 用 来 把 4 
个 字 送 入 cache。 一 次 缺失 代价 为 : 1+ (1 x15) +4 x1=20 个 存储 器 总 线 时 钟 周 期 。 这 样 每 
次 缺失 后 每 时 钟 周期 的 有 效 带 宽 为 0. 80 字 节 ， 大 约 是 一 个 字 宽 的 存储 器 和 总 线 的 带宽 的 3 
倍 。 存 储 体 对 写 操作 也 很 有 效 。 每 个 存储 体 可 以 独立 执行 写 操作 ， 使 得 写 操作 时 带宽 为 原先 
的 4 倍 ， 并 减少 了 在 写 直 达 cache 中 遇 到 的 阻塞 的 情况 。 我 们 将 看 到 ， 对 写 操作 使 用 另 一 种 策 
略 会 使 交叉 存 取 技 术 更 具 吸 引力 。 
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由 于 cache 无 处 不 在 以 及 人 们 对 大 数据 块 的 渴望 ，DRAM 制造 商 规 定 了 对 DRAM 中 一 连 串 顺 
序 地 址 的 突 发 访问 。 最 新 的 发 展 是 双人 倍速 率 动 态 随机 存储 器 (Double Data Rate DRAM)。 其 名 字 
的 意思 是 在 时 钟 的 上 升 沙 和 下 降 沿 各 传输 一 次 数据 ， 因 此 ， 得 到 的 带宽 是 基于 时 钟 频率 和 数据 
宽度 所 能 得 到 的 带宽 的 两 倍 。 为 了 分 配 如 此 高 的 带宽 ， 内 部 的 DRAM 就 被 组 织 成 为 多 体 交 叉 访 
问 存储 体 结构 。 

这 些 优 化 的 好 处 在 于 它们 保留 了 大 多 已 经 在 DRAM 中 存在 的 电路 ， 只 是 稍微 增加 了 一 些 系 
统 成 本 ， 带 宽 就 获得 了 明显 的 提高 。DRAM 的 内 部 结构 以 及 这 些 优 化 是 如 何 实现 的 将 在 附录 C 
( 见 光 盘 ) 的 C.9 节 予 以 说 明 。 

精 解 : 存储 器 芯片 组 织 起 来 有 很 多 输出 位 ， 通 常 为 4 ~32 位 ， 在 2008 年 最 常见 的 是 16 位 。 我 们 用 d x 
w 来 描述 这 种 RAM 的 结构 ， 其 中 ,4 是 可 寻 址 位 置 的 数 且 (也 就 是 深度 ) ，w 是 输出 位 数 〈 每 个 位 置 的 宽 
度 ) 。 逻 辑 上 ，DRAM 被 组 织 成 矩形 阵列 ， 访 问 时 间 被 分 为 行 访 问 时 间 和 列 访 问 时 间 。DRAM 可 以 缓 症 一 
行 。 突 发 传输 可 以 重复 访问 缓冲 区 而 不 占用 行 访问 时 间 。 缓 冲 区 的 作用 类 似 于 SRAM， 通 过 改变 列 地 址 ， 
可 以 随机 访问 缓冲 区 的 任 一 位 ， 直 到 访问 下 一 行 。 由 于 对 行 中 每 一 位 的 访问 时 间 减 少 很 多 ， 因 此 这 种 方法 
明显 改善 了 访问 时 间 。 图 5-12 说 明了 近年 来 DRAM 的 存储 密度 、 成 本 以 及 访问 时 间 的 变化 情况 。 
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图 5-12 在 1996 年 之 前 ，DRAM 的 容量 每 三 年 大 概 就 增 为 原来 的 4 售 ， 此 后 增长 速度 就 很 惕 了 
访问 时 间 的 改进 尽管 很 慢 但 是 却 从 未 停止 ， 并 且 价格 几乎 紧 随 着 存储 密度 的 提高 而 改变 ， 尽管 价格 也 受 其 
他 因素 影响 ， 如 供应 量 和 需求 量 ,但 每 GB 的 价格 并 没有 因 通货 膨胀 而 调整 。 


为 了 改进 处 理 器 的 接口 ，DRAM 增加 了 时 钟 ， 严 格 意义 上 被 称 为 同步 动 态 贿 机 看 取 存储 器 
(SDRAM) 。SDRAM 的 优点 在 于 使 用 了 统一 的 时 钟 从 而 减少 了 存储 器 和 处 理 器 问 步 的 时 间 。 

精 解 ; 一 种 评估 cache 下 层 的 存储 系统 性 能 的 方法 是 使 用 流 基 准 测试 程序 [ McCalpin，1995 ] 。 它 评估 
了 长 向 量 操作 的 性 能 。 它 们 不 具备 时 间 局 部 性 ， 并 且 比 起 被 测试 计算 机 的 cache 它们 访问 的 是 更 大 的 
阵列 。 

精 解 : DDR 存储 器 所 使 用 的 突 发 模式 同样 被 应 用 于 存储 器 总 线 ， 如 Intel Duo Core 的 前 端 总 线 。 


5. 2.6 小 结 


前 面 我 们 从 介绍 最 简单 的 cache 开始 : 每 块 只 有 一 个 字 的 直接 映射 cache。 在 这 样 的 cache 结 
构 中 ， 命 中 和 缺失 都 很 简单 ， 因 为 每 个 字 都 明确 地 被 写 人 到 一 个 位 置 ， 同 时 每 个 字 都 有 单独 的 标 
记 。 为 了 保持 cache 和 主 存 的 一 致 性 ， 可 以 使 用 写 直 达 机 制 ， 这 样 ， 每 次 对 cache 进行 写 操作 都 
会 引起 主 存 的 更 新 。 不 同 于 写 直 达 机 制 ， 写 回 机 制 仅 在 cache 中 有 和 需要 被 替换 的 块 时 才 将 相应 的 
块 复制 到 主 存 中 去 。 在 后 面 的 章节 中 我 们 将 进一步 讨论 这 一 机 制 。 

为 了 利用 空间 局 部 性 ，cache 中 的 块 大 小 必须 大 于 一 个 字 。 使 用 较 大 的 块 可 以 降低 缺失 率 ， 
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减少 cache 中 与 数据 存储 量 相关 的 标记 存储 量 ， 从 而 提高 cache 的 效率 。 尽 管 块 容量 的 增 大 可 以 
降低 缺失 率 ， 但 同时 也 会 带 来 缺失 代价 的 增加 。 如 果 缺 失 代价 与 块 容量 成 线性 关系 增长 ， 那 么 较 
大 的 数据 块 很 轻易 就 能 导致 性 能 变 差 。 
为 了 避免 性 能 损失 ， 可 以 通过 增加 主 存 的 带宽 来 更 高 效 地 传输 数据 块 。 增 加 DRAM 外 部 带 
宽 最 常用 的 方法 包括 : 增加 存储 器 位 宽 和 交叉 存 取 。DRAM 设计 者 还 改进 了 处 理 器 和 存储 器 之 间 
的 接口 以 增加 突 发 模式 下 传输 的 带宽 。 
小 测验 
存储 系统 的 速度 影响 了 设计 人 员 如 何 选 择 cache 块 的 大 小 。 下 面 哪 些 cache 设计 者 的 指导 思想 是 正确 的 ? 
A. 存储 器 延迟 越 短 ，cache 块 越 小 。 z 
B. 存储 器 延迟 越 短 ，cache 块 越 大 。 
C. 存储 器 带宽 越 高 ，cache 块 越 小 。 
D. 存储 器 带宽 越 高 ，cache 块 越 大 。 


5.3 cache 性 能 的 评估 和 改进 


在 这 一 节 中 ， 我 们 首先 探讨 评测 和 分 析 cache 性 能 的 方法 。 随 后 我 们 对 两 种 改进 cache 性 能 
的 不 同 技术 进行 研究 。 第 一 种 技术 是 通过 减少 存储 器 中 不 同 数 据 块 争 用 cache 中 同一 位 置 的 概率 
来 降低 缺失 率 。 第 二 种 技术 通过 在 存储 层次 结构 中 额外 增加 一 层 来 减少 缺失 代价 。 这 种 技术 被 
称 为 多 级 高 速 缓存 〈multilevel caching) ， 最 初出 现在 1990 年 售 价 超过 100 000 美元 的 高 端 计算 机 
中 ， 此 后 该 技术 被 广泛 应 用 于 台式 计算 机 中 ， 而 售 价 已 不 到 500 美元 。 

CPU 时 间 可 以 划分 为 CPU 执行 程序 花费 的 时 钟 周 期 和 CPU 等 待 存储 系统 花费 的 时 钟 周 期 。 
通常 来 说 ， 我 们 假定 cache 访问 命中 的 开销 是 CPU 正常 执行 周期 的 一 部 分 。 因 此 ， 

CPU 时 间 = (CPU 执行 时 钟 周期 + 存储 器 阻塞 的 时 钟 周 期 ) x 时 钟 周期 

我 们 假设 存储 器 阻塞 的 时 钟 周 期 主要 来 自 于 cache 缺失 ， 同时 我 们 将 讨论 限制 在 存储 系统 的 
简化 模型 上 。 在 实际 的 处 理 器 中 ， 由 读 、 写 操作 引起 的 阻塞 可 能 十 分 复杂 ， 并 且 对 性 能 的 准确 预 
测 通 常 需 要 对 处 理 器 和 存储 系统 进行 细致 的 模拟。 

存储 器 阻塞 的 时 钟 周期 可 以 被 定义 为 读 操作 与 写 操作 引起 阻塞 的 时 钟 周期 数 之 和 。 

存储 只 阻塞 时 钟 周期 = 读 操 作 引 起 阻塞 的 时 钟 周期 + 写 操作 引起 阻塞 的 时 钟 周期 

读 操 作 阻 塞 的 时 钟 周 期 可 以 根据 每 个 程序 中 读 的 次 数 、 读 操 作 发 生 缺 失 时 的 代价 (缺失 处 
理 需要 的 时 钟 周 期 ) 以 及 读 缺 失 率 来 定义 。 

读 操作 阻塞 的 时 钟 周期 数 =( 读 的 次 数 /程序 数 ) x 读 缺失 率 x 读 缺失 代价 

写 操 作 的 情况 就 要 复杂 一 些 。 对 于 写 直 达 机 制 ， 有 两 种 情况 引起 阻塞 . 一 种 是 写 缺 失 ， 它 通 
常 要 求 在 继续 执行 写 操作 之 前 取 回 数据 块 〈 详 情 参 考 5.2.3 节 关 于 写 处 理 的 详细 介绍 ) ; 另 一 种 
是 写 缓冲 区 阻塞 ， 当 写 操作 发 生 时 写 缓 冲 已 满 则 可 能 发 生 这 种 情况 。 因此 ， 写 操作 阻塞 的 时 钟 周 
期 为 这 两 种 情况 阻塞 的 时 钟 周 期 之 和 。 

写 操 作 阻塞 的 时 钟 周期 数 =[( 写 的 次 数 / 程 序数 ) x 写 缺 失 率 x 写 缺 失 代 价 ] + 写 缓冲 区 阻塞 

由 于 写 缓冲 区 阻塞 不 仅仅 取决 于 频率 ， 还 取决 于 写 操作 的 执行 时 机 ， 因 此 这 样 的 阻塞 不 能 
由 一 个 简单 公式 来 计算 。 幸 运 的 是 ， 如 果 系 统 中 写 缓冲 区 的 深度 合适 (例如 4 个 或 多 个 字 )， 并 
且 存 储 器 接收 写 操作 的 速率 要 明显 超过 程序 中 平均 写 频率 (例如 是 它 的 两 倍 ) ， 写 缓冲 区 的 阻塞 
将 变 得 很 少 ， 可 以 将 其 和 忽略。 如果 系统 不 能 达到 这 些 标准 ， 说 明 它 设计 得 不 够 好 ; 设计 人 员 应 该 
使 用 更 座 的 写 缓冲 区 或 者 使 用 写 回 机 制 。 

写 回 机 制 同样 可 能 产生 额外 的 阻塞 。 阻 塞 的 产生 原因 是 ， 当 数 据 块 被 替换 时 需要 将 其 写 回 
到 主 存 中 。 我 们 将 在 5.5 节 中 对 此 进行 更 详细 的 讨论 。 
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在 大 部 分 写 直达 cache 结构 中 ， 读 和 写 的 缺失 代价 是 一 样 的 (都 是 从 主 存 中 取 回 数据 块 的 时 间 )。 

如 果 假 设 写 缓冲 区 阻塞 可 以 被 和 忽略， 那么 我 们 可 以 合并 读 写 操作 并 共用 一 个 缺失 率 和 缺失 代价 : 
存储 器 阻塞 时 钟 周 期 =( 存 储 器 访问 次 数 / 程 序数 ) x 缺失 率 x 缺 失 代价 

也 可 以 表示 如 下 : 
存储 器 阻塞 时 钟 周 期 = (指令 数 / 程 序数 ) x (缺失 数 /指令 ) x 缺失 代价 

让 我 们 通过 一 个 简单 的 例子 来 帮助 理解 cache 的 性 能 对 处 理 器 性 能 的 影响 。 
计算 cache 性 能 

假设 指令 cache 的 缺失 率 为 2% ， 数 据 cache 的 缺失 率 为 4% ， 处 理 器 的 CPI 为 2， 没 有 存储 
器 阻塞 ， 且 每 次 缺失 的 代价 为 100 个 时 钟 周期 ， 那 么 配置 一 个 从 不 发 生 缺 失 的 理想 的 cache， 处 
理 髓 的 速度 快 多 少 ? 这 里 假定 全 部 load 和 store 的 频率 为 36% 。 

根据 指令 计数 器 〈I) ， 由 指令 钠 失 引起 的 时 钟 周期 损失 数 为 

指令 缺失 时 钟 周期 =Ix2 吧 x100=2.00xI 

由 于 所 有 load 和 store 指令 出 现 的 频率 为 36% ， 我 们 可 以 计算 出 数据 缺失 引起 的 时 钟 周期 损失 数 ， 

数据 缺失 时 钟 周 期 =Tx369% x4% x100=1.44x1j 

总 的 存储 占 阻 赛 时 钟 周 期 为 2.00 xI+1.44 xI=3.44 xI， 每 条 指令 的 存储 器 阻塞 超过 3 个 时 
钟 周 期 。 因 此 ， 包 括 存储 器 阻塞 在 内 的 总 的 CPI 是 2 +3.44 =5.44。 由 于 指令 计数 器 或 时 钟 频率 
都 没有 改变 ，CPU 执行 时 间 的 比率 为 

有 阻塞 的 CPU 执行 时 间 ”_ 工 X CPlss x 时 钟 周期 ”CPIas 5.44 
配置 理想 cache 的 CPU 执行 时 间 ”I x CPIs。 x 时 钟 周期 ”CPIs。” 2 

因此 ， 配 置 了 理想 的 cache 的 CPU 的 性 能 是 原来 的 5.44/2 =2.72 售 。 

如 果 处 理 器 速度 很 快 ， 而 存储 系统 却 不 快 ， 那 样 又 会 发 生 什 么 ? 在 第 1 章 介绍 的 Amdahl 定 
律 提 醒 我 们 这 样 一 个 事实 : 存储 器 阻塞 花费 的 时 间 占 据 执行 时 间 的 比例 会 上 升 。 一 些 简单 的 例 
子 会 次 明 这 个 问题 有 多 严重 。 假 设 我 们 加 速 上 面 例子 中 的 计算 机 ， 通 过 改进 流水 线 ， 在 不 改变 时 
钟 频率 的 情况 下 ， 将 CPI 从 2 降 到 1。 那 么 具有 cache 缺失 的 系统 的 CPI 为 1+3.44 =4.44， 而 配 
置 理想 的 cache 的 系统 性 能 是 它 的 4.44/1 =4.44 倍 。 存 储 颖 阻塞 所 花费 的 时 间 占据 整个 执行 时 间 
的 比例 则 从 3.44/5.44 =63% 上 升 到 3.44/4.44 =77% 。 

同样 ,仅仅 提高 时 钟 频率 而 不 改进 存储 系统 也 会 因 cache 缺失 的 增加 而 加 剧 性 能 的 流失 。 

前 面 的 例子 和 等 式 是 建立 在 命中 时 间 不 计 入 计算 cache 性 能 的 假设 之 上 。 很 明显 ， 如 果 命 
中 时 间 增 加 ， 那 么 从 存储 系统 中 存 取 一 个 字 的 总 时 间 也 会 增加 ， 继而 导致 处 理 器 时 钟 周期 的 
增加 。 我 们 还 将 看 到 其 他 一 些 实例 以 了 解 导 致 俞 中 时 间 略 微 增加 的 原因 ， 一 个 例子 是 cache 容 
量 的 增加 。 显 然 ， 一 个 大 容量 的 cache 访问 时 间 也 较 长 ， 就 像 图 书馆 的 书桌 很 大 (有 3m )， 
要 找到 桌 上 的 一 本 书 必然 要 花费 很 长 的 时 间 。 命中 时 间 的 增加 相当 于 又 增加 了 一 级 流水 线 ， 
因为 cache 命中 操作 需要 多 个 时 钟 周 期 完成 。 尽管 计算 深度 流水 对 性 能 的 影响 会 更 复杂 ， 但 在 
某 种 程度 上 ， 大 容量 cache 命中 时 间 的 增加 反而 会 影响 命中 率 的 改进 使 其 不 起 作用 ， 导致 处 理 
器 性 能 的 下 降 。 

为 了 分 别 找到 在 命中 和 缺失 情况 下 数据 访问 时 间 对 性 能 影响 的 证 据 ， 设计 人 员 有 时 会 使 用 
平均 存储 器 访问 时 间 (AMAT) 作为 检测 cache 设计 的 方法 。 平均 存储 器 访问 时 间 是 综合 考虑 了 
命中 、 缺 失 以 及 不 同 访问 的 频率 后 得 出 的 访 存 平 均 时 间 ， 它 等 于 下 面 的 公式 : 

AMAT= 命中 时 间 + 缺 失 率 x 缺 失 代 价 
计算 平均 存储 器 访问 时 间 

处 理 器 时 钟 周期 的 时 间 为 1 ns， 缺 失 代 价 是 20 个 时 钟 周期 ， 缺 失 率 为 每 条 指令 0.05 次 缺 
失 ，cache 访问 时 间 (包括 命中 判断 ) 为 1 个 时 钟 周 期 。 假设 读 操作 和 写 操 作 的 缺失 代价 相同 并 
且 忽 略 其 他 写 阻 塞 。 请 计算 AMAT。 
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每 条 指令 的 平均 存储 器 访问 时 间 为 
AMAT = 命中 时 间 + 缺失 率 x 缺失 代价 
= 1 +0.05 x 20 
= 2 个 时 钟 周期 
出 2 ns。 
下 一 节 我 们 将 讨论 另 一 种 cache 组 织 结构 ， 这 种 结构 减少 了 缺失 率 ， 但 是 有 时 可 能 会 增加 命 
中 时 间 。 在 5.11 节 中 我 们 将 给 出 其 他 的 例子 。 


5. 3. 1 ”通过 更 灵活 地 放置 块 来 减少 cache 缺失 


到 目前 为 止 ， 我 们 将 一 个 块 放 人 cache 中 ,采用 的 是 最 简单 的 定位 机 制 : 一 个 块 只 能 放 到 
cache 中 一 个 明确 的 位 置 。 正 如 前 面 所 述 ， 这 种 方法 称 为 直接 映射 (direct mapped) ， 因 为 存储 器 
中 任何 一 块 都 被 直接 映射 到 存储 器 层次 结构 中 较 高 层 的 唯一 位 置 。 实 际 上 ， 有 一 整套 放置 块 的 
方法 。 直 接 映射 ， 是 一 种 极端 的 情况 ， 此 时 一 个 块 被 精确 地 放 到 一 个 位 置 。 

另 一 种 极端 方式 是 : 一 个 块 可 以 被 放置 在 cache 中 的 任何 位 置 。 这 种 机 制 称 为 全 相 联 S ， 因 
为 存储 器 中 的 块 可 以 与 cache 中 任何 一 项 相关 。 在 全 相 联 cache 中 要 找 一 个 指定 的 块 ， 由 于 该 块 
可 能 被 存放 在 cache 中 的 任何 位 置 ， 因 此 需要 检索 cache 中 所 有 的 项 。 为 了 使 检索 更 加 有 效 ， 它 
是 由 一 个 与 cache 中 每 个 项 都 相关 的 比较 器 并 行 完 成 的 。 这 些 比较 器 加 大 了 硬件 开销 ， 因 和 而， 全 
相 联 只 适合 块 数 较 少 的 cache。 

介 于 直接 映射 和 全 相 联 之 间 的 设计 是 组 相 联 S 。 在 组 相 联 cache 中 ， 每 个 块 可 被 放置 的 位 置 
数 是 固定 的 〈 至少 两 个 )。 每 个 块 有 个 位 置 可 放 的 cache 被 称 作 路 组 相 联 cache。 一 个 半路 组 
相 联 cache 由 很 多 个 组 构成 ， 每 个 组 中 有 n 块 。 根 据 索 引 域 ， 存 储 器 中 的 每 个 块 对 应 到 cache 中 
唯一 的 组 ， 并且 可 以 放 在 这 个 组 中 的 任何 一 个 位 置 上 。 因 此 ， 组 相 联 映像 将 直接 岗 射 和 全 相 联 映 
像 结 合 起 来 : 一 个 块 首先 被 直接 映射 到 一 个 组 ， 然 后 检索 该 组 中 所 有 的 块 判 断 是 否 匹 配 。 例 如 ， 
图 5-13 是 根据 这 三 种 策略 ， 块 12 被 放置 在 一 个 容量 为 8 块 的 cache 中 的 情况 。 

直接 映射 组 相 联 全 相 联 





5-13 地 址 为 12 的 主 存 块 在 cache 中 的 位 置 ，cache 容量 
为 8 块 ， 采用 直接 映射 、 组 相 联 以 及 全 相 联 机 制 
在 直接 映射 方式 下 ， 主 存 块 12 只 能 放置 在 cache 中 唯一 的 块 中 ， 该 块 为 (12 mod 8) =4。 在 两 路 组 相 联 
cache 中 ， 有 4 个 组 ， 主 存 块 12 必须 放 在 第 (12 mod 4) =0 组 中 | 主 存 块 可 以 放 在 该 组 的 任何 位 置 。 在 全 相 
联 方式 下 ， 块 地 址 为 12 的 主 存 块 可 以 放 在 cache 中 8 个 块 的 任意 -一 块 。 


回想 直接 映射 的 cache， 一 个 存储 块 的 位 置 是 这 样 给 出 的 ; 


名 ”全 相 联 cache (fully associative cache) ，cache 的 一 种 组 织 方式 ， 块 可 以 放置 到 cache 中 的 任何 位 置 。 
所 组 相 联 cache (set- associative cache ) : cache 的 另 一 种 组 织 方式 ， 块 可 以 放置 到 cache 中 的 部 分 位 置 (至 少 两 个 ) 。 
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( 块 号 )mod(cache 中 的 块 数 ) 

而 在 组 相 联 cache 中 ， 包 含 存 储 块 的 组 是 这 样 给 出 的 : 

( 块 号 )mod(cache 中 的 组 数 ) 

由 于 该 块 可 能 被 放 在 组 中 的 任何 一 个 位 置 ， 因 此 组 中 所 有 块 的 标记 都 要 被 检索 。 而 在 全 相 
联 cache 中 ， 块 可 以 被 放 在 任何 位 置 ， 因 此 cache 中 全 部 块 的 标记 都 要 被 检索 。 

我 们 同样 可 以 把 所 有 的 块 定位 策略 看 成 是 组 相 联 的 一 个 特例 。 图 5-14 显示 了 一 个 8 块 的 
cache 可 能 的 相 联 结构 。 直 接 映 射 cache 是 一 个 简单 的 1 路 组 相 联 cache: cache 的 每 项 有 一 个 块 ， 
并 且 每 组 只 有 一 个 元 素 。 有 m 项 的 全 相 联 cache 可 以 看 成 是 一 个 简单 的 m 路 组 相 联 cache， 它 只 
有 一 个 组 ， 组 里 有 mw 块 ， 每 一 项 可 以 放 在 该 组 的 任何 一 块 中 。 
一 路 组 相 联 
直接 映射 
标记 ”数据 

两 路 组 相 联 
标记 数据 标记 数据 


ww ec 凌 


组 
0 
] 
2 
3 


也 


四 路 组 相 联 
组 标记 数据 标记 数据 标记 数据 标记 数据 
0 
l 


八路 组 杞 联 
标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 


5-14 一 个 拥有 8 个 块 的 cache 被 配置 成 直接 映射 、 两 路 组 相 联 、 四 路 组 相 联 以 及 全 相 联 结构 

cache 中 块 的 总 数 等 于 组 数 乘 以 关联 度 。 因 此 ， 对 于 一 个 固定 大 小 的 cache， 增 加 关联 度 的 同时 也 就 减少 
了 组 数 ， 同 时 也 就 增加 了 每 组 的 块 数 。 对 于 容量 为 8 个 块 的 cache， 一 个 八路 组 相 联 的 cache 也 就 等 同 于 一 
个 全 相 联 cache。 


提高 关联 度 的 好 处 在 于 它 通常 能 够 降低 缺失 率 ， 如 下 例 所 示 。 而 主要 的 缺点 则 是 增加 了 命 
中 时 间 ， 稍 后 我 们 将 详细 讨论 。 
cache 的 缺失 与 关联 度 

假设 有 三 个 小 的 eache， 每 个 cache 者 有 4 个 块 ， 块 大 小 为 1 个 字 。 第 一 个 cache 是 全 相 联 方 
式 ， 第 二 个 是 两 路 组 相 联 ， 第 三 个 是 直接 映射 。 着 按 以 下 地 址 0,，8，0，6，8 依次 访问 时 ， 求 每 
个 cache 的 缺失 次 数 。 

直接 映射 cache 最 简单 ， 首 先 让 我 们 判断 每 个 地 址 对 应 的 cache 块 : 
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cache 块 
(0 mod 4) =0 
(6 mod 4) =2 
(8 mod 4) =0 


的 地 址 


现在 ， 在 每 次 引用 后 我 们 汗 入 cache 的 内 容 ， 空 白 项 表示 无 效 的 块 。 加 粗 的 项 表示 在 相关 引 
用 中 ， 有 一 个 新 的 项 被 加 入 到 cache 中 ,未 加 粗 的 项 则 表示 cache 中 昌 的 项 。 


引用 后 cache 中 的 内 容 


I 1! | 7 |; 


oo Le 的 已 
于 
法 
I 二 | 贱 
| 入 | 计 


直接 映射 cache 的 5 次 访问 产生 5 次 缺失 。 
组 相 联 cache 有 两 组 (组 0 和 1)，, 每 组 有 两 个 块 ， 我 们 首先 来 确定 每 个 块 地 址 映射 到 哪 


一 组 : 


块 地 址 cache 组 ” 
0 (0 mod 2) =0 
6 (6 mod 2) =0 
8 | (8 mod 2) =0 


由 于 当 缺 失 时 ， 我 们 需要 选择 替换 组 中 的 某 一 项 ， 因 此 需 要 一 个 更换 规则 。 组 相 联 cache 通 
第 会 选择 替换 一 组 中 最 近 最 少 被 使 用 的 块 ， 也 就 是 说 ， 在 过 去 最 久 的 时 间 被 用 到 的 那 一 块 将 被 
玲 换 ( 稍 后 我 们 将 详细 讨论 其 他 蔡 换 规则 )。 使 用 这 个 替换 策略 ， 每 次 引用 后 组 相 联 cache 中 的 
内 容 如 下 所 示 : 


引用 后 cache 中 的 内 容 


被 访问 的 存储 器 的 块 地 址 | 命中 /缺失 . ， 
a 


主 存 [0] 主 存 [6] 
sw | snl] | 


注意 到 当 块 6 被 访问 时 ， 它 将 块 8 蔡 换 掉 了 ， 因 为 比 起 块 0， 块 8 是 最 近 最 少 被 使 用 的 那 一 
块 。 两 路 组 相 联 cache 总 共有 4 次 缺失 ， 比 直接 映射 的 cache 少 一 次 。 

全 相 联 cache 有 4 个 块 ( 在 一 组 中 )， 存 储 器 中 任意 一 块 可 放 到 cache 的 任何 位 置 。 全 相 联 
cache 性 能 最 好 ， 仅 有 3 次 缺失 。 


o | 局 | 己 |mo|e 
二 
Ht 
讨 
Ht 
: 


300 .第 5 章 大 容量 和 高 速度 : 开发 存储 器 层次 结构 


引用 后 cache 中 的 内 容 
ss le 二 让 有 区 1 
0 | 二 [0 | | 
; 缺失 | 主 丰 [0 | [9] | | 
0 全 中 | [0 | 护 [8] | | 
; 


对 于 这 一 系列 的 访问 ， 三 次 缺失 是 可 能 得 到 的 最 好 结果 ， 因 为 有 三 个 不 同 地 址 的 块 被 访问 。 
注意 ， 如 果 cache 中 有 8 个 块 ， 两 路 组 相 联 cache 将 不 会 发 生 蔡 换 (请 读者 自己 验证 ) ， 并 且 缺 失 
次 数 与 全 相 联 cache 的 一 样 多 。 同 样 ， 如 果 有 16 块 ， 这 3 种 cache 会 有 相同 的 缺失 次 数 。 上 面 的 
例子 已 经 说 明了 在 判断 cache 性 能 时 ，cache 容量 和 关联 度 不 能 分 开 考虑 。 

关联 度 能 使 缺失 率 下 降 多 少 呢 ? 图 5-15 显示 了 一 个 容量 为 64 KB， 块 大 小 为 16 字 的 数据 
cache， 当 关联 度 从 直接 映射 到 8 路 组 相 联 变化 时 性 能 的 改进 情况 。 从 一 路 组 相 联 到 两 路 组 相 联 ， 
缺失 率 下 降 了 大 约 15% ， 但 是 更 高 的 关联 度 对 缺失 率 的 改善 就 很 小 了 。 


5.3.2 在 cache 中 查找 一 个 块 


现在 ， 我 们 考虑 在 组 相 联 的 cache 中 如 何 查找 一 个 cache 块 。 正 如 在 直接 映射 cache 中 一 样 ， 
组 相 联 cache 中 每 一 块 都 包含 一 个 地 址 标记 用 来 给 出 块 地 址 。 在 被 选中 的 组 中 每 一 块 的 标记 都 要 
锌 检测 ， 从 而 判断 是 否 和 来 自 处 理 器 的 块 地址 相 匹配 。 图 5- 16 解析 了 地 址 。 索 引 值 用 来 选择 包 
含 所 需 地 址 的 组 ， 该 组 中 所 有 块 的 标记 都 将 被 查看 。 由 于 速度 是 最 根本 的 ， 被 选中 的 组 中 所 有 块 
的 标记 是 并 行 检测 的 。 就 像 在 全 相 联 cache 中 一 样 ， 组 相 联 cache 使 用 顺序 检测 将 使 得 命中 时 间 
太 长 。 





5-15 ”使 用 与 内 置 FastMATH 处 理 器 相似 的 cache 结 图 5-16 组 相 联 或 者 直接 映射 cache 


构 ， 关 联 度 从 一 路 到 八路 ， 采用 SPEC2000 基 中 地 址 的 三 个 组 成 部 分 
准 测试 程序 测 出 的 数据 cache 缺失 率 索引 位 用 来 选择 一 个 组 ， 标 记 位 用 来 和 选中 组 
10 个 SPEC2000 测试 程序 的 结果 来 自 Hennessy 和 中 的 块 进行 比较 来 选择 块 ， 块 内 偏 移 地 址 是 块 中 
Patterson [2003 ]。 被 请 求 数据 的 地 址 。 


如 果 cache 总 容量 保持 不 变 ， 提 高 关联 度 就 增加 了 每 组 中 的 块 数 ， 也 就 是 并 行 查找 时 同时 比 
较 的 次 数 : 关联 度 每 增加 到 两 倍 就 会 使 每 组 块 数 加 倍 而 使 组 数 减 半 。 相应 地 ， 关 联 度 每 增加 到 两 
倍 ， 检 索 位 就 会 减少 1 位 ， 标 记 位 增加 1 位 。 在 全 相 联 cache 中 ， 只 有 一 组 有 效 ， 所 有 块 必须 并 
行 检测 ， 因 此 没有 索引 ， 除 了 块 内 偏 移 地 址 ， 整个 地 址 都 需要 和 每 个 cache 块 的 标记 进行 比较 。 
换 句 话说 ， 我 们 不 使 用 索引 位 就 可 以 查找 整个 cache 。 

在 直接 映射 cache 中 ， 只 需要 一 个 比较 器 ， 这 是 因为 每 一 项 只 能 对 应 cache 中 唯一 的 块 ， 并 
且 ， 我 们 通过 索引 就 能 很 简单 地 访问 cache。 图 5-17 是 一 个 四 路 组 相 联 cache， 需 要 4 个 比较 器 以 
及 一 个 4 选 1 的 多 路 选择 器 ， 用 来 在 选 定 组 中 的 4 个 成 员 之 间 进 行 选择 。cache 访问 包括 检索 相 
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应 的 组 ， 然 后 在 组 中 检测 标记 。 一 个 组 相 联 cache 的 开销 包括 额外 的 比较 器 以 及 由 于 对 组 里 数据 
氛 进 行 比较 和 选择 而 产生 的 延迟 。 


3130…12111098…3210 


索引 有 效 位 标记 数据 ” 有 效 位 标记 数据 ”有效 位 标记 数据 。 有 效 位 标记 数据 
i ed | 
二 一 六 一 一 一 一 一 






i ee 
b 2 
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图 5-17 实现 一 个 四 路 组 相 联 的 cache 需要 4 个 比较 器 和 一 个 4 选 1 的 多 路 选择 器 
比较 器 用 来 判断 被 选中 的 组 中 郧 一 个 单元 〈 如 果 有 的 话 ) 与 标记 匹配 。 比较 器 的 输出 通过 使 用 带 有 译 码 选 
择 信号 的 多 路 选择 器 在 选中 组 里 4 个 块 之 中 选择 一 个 数据 。 在 -- 些 具体 实现 中 ，cache RAM 数据 部 分 的 输出 
使 能 信号 可 以 用 来 选择 驱动 输出 的 组 中 的 数据 项 。 输 出 使 能 信号 来 自 比较 器 ， 使 得 匹配 的 单元 驱动 数据 的 输 
出 。 这 种 结构 不 需要 使 用 多 路 选择 器 。 


在 任何 存储 层次 结构 中 选择 直接 映射 、 组 相 联 还 是 全 相 联 映射 ， 需要 在 缺失 代价 和 关联 度 


实现 的 代价 之 间 进 行 权 衡 ， 既 要 考虑 时 间 ， 也 要 考虑 额外 的 硬件 。 
精 解 : 内 容 可 寻 址 存储 器 (Content Addressable Memory, CAM) 是 一 种 将 比较 器 和 存储 单元 结合 存 一 


个 部 件 上 的 电路 结构 。 它 不 像 RAM 那样 根据 地 址 读数 据 ， 而 是 由 用 户 提供 数据 ， 然 后 CAM 查看 它 是 否 有 
天 本 并 且 返 回 匹配 行 的 索引 。CAM 的 出 现 意味 着 设计 者 能 提供 更 高 的 关联 度 ， 这 上 比 在 SRAM 和 比较 器 之 外 
还 需要 构建 硬件 才能 实现 的 关联 度 还 要 高 。 在 2008 年 ，CAM 更 大 的 容量 和 功 耗 使 得 两 路 和 四 路 组 相 联结 
鬼 一 般 采用 标准 的 SRAM 和 上 比较 器 构建 ， 八 路 以 及 更 多 路 组 相 联 的 结构 则 由 CAM 构建 。 
标记 位 大 小 与 组 相 联 

提高 关联 度 需 要 更 多 比较 内 ,同时 cache 块 中 的 标记 位 数 也 需要 增加 。 假 设 _ 个 cache， 有 
4K 个 决 ， 决 大 小 为 4 个 字 ， 地 址 为 32 位 ， 请 分 别 计算 在 直接 映射 、 两 路 组 相 联 、 四 路 组 相 联 和 
全 相 联 映射 中 ，cache 的 总 组 数 以 及 总 的 标记 位 数 。 

由 于 块 大 小 为 16( =2 ) 字 节 ，32 位 地 址 域 中 的 32 -4 =28 位 用 来 提供 索引 和 标记 位 直接 
隐身 中 组 数 和 块 数 一 样 ， 由 于 log, (4K) =12， 因 此 有 12 位 是 案 引 位 ， 因 此 总 的 标记 位 数 是 
(28 -12) x4K=16 x4KK=64KK 位 。 
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关联 度 每 增加 1 倍 ， 组 数 就 会 减少 1/2， 因 此 用 来 索引 cache 的 位 数 也 要 相应 减 1， 而 标记 位 
则 是 增 1。 因 此 ， 对 于 一 个 两 路 组 相 联 cache， 有 2 政 个 组 ， 总 的 标记 位 数 为 《28 -11) x2x 
2K=34x2K=68K 位 。 而 四 路 组 相 联 中 组 数 为 1K， 那 么 总 的 标记 位 数 为 (28 ~10) x4xlK= 
72xl1K=72K 位 。 

对 于 全 相 联 cache， 只 有 一 个 有 4 天 个 块 的 组 ， 标 记 位 是 28 位 ， 因 此 总 的 标记 位 数 是 28 x 
4Kx1=112K 位 。 


5. 3.3 葵 换 块 的 选择 


当 直 接 映 射 的 cache 发 生 缺 失 时 ， 被 请 求 的 块 只 能 放置 于 cache 中 唯一 位 置 ， 而 原先 占据 那 
个 位 置 的 块 就 必须 被 替换 掉 。 在 关联 的 cache 中 ， 被 请 求 的 块 放置 在 什么 位 置 需要 进行 选择 ， 因 
此 替换 哪 一 块 也 要 进行 选择 。 在 全 相 联 cache 中 ， 所 有 的 块 都 将 可 能 被 替换 。 在 组 相 联 cache 中 ， 
我 们 将 在 选中 的 组 中 挑选 被 替换 的 块 。 

最 常用 的 方法 是 最 近 最 少 使 用 法 (LRU}”， 也 是 我 们 在 前 面 例子 中 使 用 的 方法 。 在 LRU 算 
法 中 ,被 替换 的 块 是 最 久 没 有 使 用 的 那 一 块 。 前 面 组 相 联 的 例子 中 就 使 用 了 LRU 算法 ， 这 也 是 
为 什么 我 们 替换 主 存 (0) 那 块 而 不 是 主 存 (6) 。 

LRU 替换 算法 的 实现 是 通过 追踪 每 一 块 的 相对 使 用 情况 。 对 于 一 个 两 路 组 相 联 cache， 追 踪 组 
中 两 个 数据 项 的 使 用 情况 可 以 这 样 实现 ， 在 每 组 中 单独 保留 一 位 ， 通 过 设置 该 位 指出 哪 一 项 被 访问 
过 。 当 关联 度 提高 时 ，LRU 的 执行 就 变 得 困难 些 ; 在 第 5.5 节 中 ， 我 们 将 会 讨论 另 一 种 替换 机 制 。 


5.3.4 使 用 多 级 cache 结构 减少 缺失 代价 


所 有 现代 计算 机 都 使 用 cache。 为 了 进一步 减 小 现代 处 理 器 高 时 钟 频率 与 日 益 增 长 的 DRAM 
访问 时 间 之 间 的 差距 ， 大 多 数 微 处 理 器 都 会 增加 额外 一 级 cache。 这 种 二 级 cache 通常 位 于 芯 
内 ， 当 一 级 cache 缺失 时 就 会 访问 它 。 如 果 二 级 cache 中 包含 所 需要 的 数据 ， 那 么 一 级 cache 的 缺 
失 代 价 就 是 二 级 cache 的 访问 时 间 ， 这 要 比 访问 主 存 快 得 多 。 如 果 一 级 和 二 级 cache 中 均 不 包含 
所 需 的 数据 ， 就 需要 访 存 ， 这 样 就 会 产生 更 大 的 缺失 代价 。 

使 用 二 级 cache 后 ， 性 能 能 改进 多 少 ? 下 面 这 个 例子 将 会 告诉 我 们 。 

多 级 cache 的 性 能 

假定 我 们 的 处 理 器 基本 的 CPI 为 1.0， 所 有 访问 在 一 级 cache 中 均 命 中 ， 时 钟 频率 为 4 GHz。 
假设 主 存 访问 时 间 为 100 ns， 其 中 包括 缺失 处 理 时 间 。 设 一 级 cache 中 每 条 指令 缺失 率 为 2% 。 
如果 增 加 一 个 二 级 cache， 命 中 或 缺失 访问 的 时 间 都 是 5ns， 而 且 容 量 大 到 必须 使 访 问 主 存 的 缺 
失 率 减少 到 0.5% ， 这 时 的 处 理 医 速率 能 提高 多 少 ? 


主 存 的 缺失 代价 为 
一 = 400 个 时 钟 周期 
0.25 讨 名 周期 


只 有 一 级 cache 的 处 理 器 的 有 效 CPI 由 下 列 公式 给 出 : 
总 的 CPI= 基本 CPI+ 每 条 指令 的 存储 器 阻塞 时 钟 周 其 
因此 ， 在 本 例 中 ， 只 有 一 级 cache 时 ， 
总 的 CPI =1.0+ 每 条 指令 的 存储 器 阻塞 时 钟 周 期 =1.0 +2% x400 =9 





名 ”最近 最 少 使 用 法 (LRU) (least recently used) : 一 种 替换 策略 ， 总 是 替换 很 长 时 间 没有 被 使 用 的 块 。 
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对 于 两 级 cache， 一 级 cache 缺失 时 可 以 由 二 级 cache 或 者 主 存 来 处 理 。 访 问 二 级 cache 时 的 
缺失 代价 为 
-一 >?s - 20 个 时 钟 周 期 


如 果 缺 失 能 由 二 级 cache 处 理 ， 那 么 这 就 是 整个 缺失 代价 。 如 果 缺 失 处 理 需要 访 存 ， 总 的 缺 
失 代 价 就 是 二 级 cache 和 主 存 的 访问 时 间 之 和 。 

因此 ， 对 一 个 两 级 的 cache， 总 的 CPI 是 两 级 cache 的 阻塞 时 钟 周期 和 基本 CPI 的 总 和 。 

总 的 CPI= 1 + 一 级 cache 中 每 条 指令 的 阻塞 + 二 级 cache 中 每 条 指令 的 阻塞 
=1+2% x20 +0.5% x400 =1+0.4+2.0 = 3.4 

因此 ， 有 二 级 cache 的 处 理 器 性 能 是 没有 二 级 cache 处 理 器 性 能 的 9.0/3.4=2.6 倍 。 

我 们 还 可 以 使 用 另 一 种 方法 来 计算 阻塞 时 间 。 在 二 级 cache 命中 的 阻塞 周期 为 (2% - 
0.5% ) x20 =0.3; 而 必须 访问 主 存 的 阻塞 周期 必须 同时 包括 访问 二 级 cache 和 访问 主 存 的 时 间 ， 
为 0.5% x(20 +400) =2.1。 对 它们 求 和 为 1.0+0.3+2.1， 同 桩 等 于 3.4。 

一 级 cache 和 二 级 cache 的 设计 思想 明显 不 同 ,， 这 是 因为 对 于 单 级 cache， 另 一 级 cache 的 存 
在 改变 了 最 佳 选 择 。 特 别 是 两 级 cache 的 结构 使 得 一 级 cache 致力 于 减少 命中 时 间 获 得 较 短 的 时 
钟 周期 或 者 较 少 的 流水 级 ， 二 级 cache 则 主要 针对 改善 缺失 率 以 减少 长 时 间 的 访 存 代价 。 

通过 将 每 一 级 cache 与 最 优化 单 级 cache 的 设计 进行 比较 ， 我 们 可 以 看 出 这 些 变化 对 两 级 
cache 的 影响 。 与 单 级 cache 相 比 ， 多 级 cache 中 的 一 级 cache 通常 很 小 。 男 外 ， 一 级 cache 的 块 
容量 通常 也 很 小 ， 再 伴随 小 容量 的 cache 使 得 缺失 代价 降低 。 相 比 之 下 ， 由 于 二 级 cache 的 访问 
时 间 不 是 关键 ， 因 此 二 级 cache 的 容量 比 一 般 的 单 级 cache 要 大 得 多 ， 块 容量 也 比 单 级 cache 中 的 
要 大 。 它 还 经 党 使 用 比 一 级 cache 更 高 的 关联 度 以 减少 缺失 率 。 

我 们 用 尽 一 切 方 法 对 冒 泡 排 序 (Bubble Sort)、 快 速 排序 (Quicksort) 和 基数 排序 (Radix 
Sort) 等 进行 分 析 ， 希望 找到 最 好 的 排序 算法 。 图 5-18a 说 明了 使 用 基数 排序 和 快速 排序 时 ， 指 
令 执行 的 情况 。 轩 然 ， 对 于 大 的 数组 ， 在 操作 次 数 上 ， 基 数 排序 比 快速 排序 要 有 优势 。 图 5-18b 
是 每 项 平均 所 需 的 时 间 ， 而 不 是 执行 的 指令 数 。 我 们 可 以 看 到 开始 两 条 曲线 的 轨迹 与 图 5-18a 中 
相似 ， 但 是 随 着 排序 数据 的 增加 ， 基 数 排序 的 曲线 开始 偏离 ， 这 是 为 何 ? 图 5-18c 用 每 项 排序 平 
均 cache 缺失 数 解 答 了 这 个 问题 : 快速 排序 一 直 有 比 基 数 排序 少 得 多 的 每 项 缺失 数 。 

标准 算法 分 析 通 常会 忽视 存储 器 层次 结构 的 影响 ， 正如 更 快 的 时 钟 频率 和 摩尔 定律 让 体系 结构 
设计 者 从 指令 流 中 获取 所 有 的 性 能 ， 合理 地 使 用 存储 器 层次 结构 是 获得 高 性 能 的 关键 。 如 我 们 在 概 
述 中 所 说 的 ， 理 解 存储 器 层次 结构 的 行为 对 于 理解 当今 计算 机 的 程序 性 能 是 十 分 关键 的 。 

精 解 ; 使 用 多 级 cache 会 产生 一 些 复杂 情况 。 首 先 ， 存在 多 种 不 同类 型 的 缺失 以 及 相应 的 缺失 率 。 在 
“cache 的 缺失 与 关联 度 ” 的 例子 中 ， 我 们 看 见 了 一 级 cache 缺失 率 以 及 全 局 缺失 率 2 ， 即 在 所 有 级 cache 中 都 
缺失 的 那 部 分 访问 。 同 时 还 有 二 级 cache 缺失 率 ， 是 二 级 cache 所 有 缺失 次 数 和 访问 次 数 的 比率 。 这 个 缺失 率 
称 为 二 级 cache 的 局 部 缺失 率 S 。 由 于 -一 级 cache 过 滤 了 一 些 访问 ,特别 是 那些 具有 较 好 的 空间 局 部 性 和 时 间 局 
部 性 的 访问 ， 这 就 使 得 二 级 cache 的 局 部 缺失 率 要 大 大 高 于 全 局 缺失 率 。 在 “cache 的 缺失 与 关联 度 ” 的 例子 中 ， 
可 以 计算 出 二 级 cache 的 局 部 缺失 率 为 0.5% /2% =25% ! 幸运 的 是 ， 全 局 缺失 率 决 定 了 访问 主 存 的 次 数 。 


日。 多 级 cache( multilevel cache ) : 存储 系统 由 多 级 cache 组 成 ， 而 不 仅仅 只 有 主 存 和 一 个 cache。 
已 ”全 局 缺失 率 (global miss rate) : 在 多 级 cache 的 所 有 级 中 都 缺失 的 那 部 分 访问 。 
加 局 部 缺失 率 〈local miss rate) : 在 多 级 cache 中 ， 某 一 级 cache 的 缺失 率 。 
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图 5-18 比较 快速 排序 和 基数 排序 
a) 每 个 排序 项 平均 执行 指令 数 ，b) 每 个 排序 项 平均 时 间 ; e) 每 个 排序 项 平均 cache 缺失 数 
数据 来 自 于 LaMarca 和 Ladner 在 1996 年 的 一 篇 文章 。 尽 管 在 更 新 的 处 理 器 上 数值 会 有 变化 ， 但 是 结论 不 变 。 
由 于 这 些 结果 ， 人 们 又 发 明了 新 版 本 的 基数 排序 ， 将 存储 器 层次 结构 考虑 进来 ， 以 重新 获得 算法 的 优 热 ( 见 
5. 11 节 ) 。cache 优化 的 基本 思想 是 在 某 个 块 被 替换 前 ， 重 复 使 用 该 块 中 所 有 的 数据 。 


精 解 : 乱 序 处 理 器 〈 见 第 4 章 》 在 缺失 时 仍 能 执行 指令 ， 因 而 性 能 更 加 复杂 。 我 们 使 用 每 条 指令 缺失 
数 来 代 蔡 指令 缺失 率 和 数据 缺失 率 ， 公 式 如 下 ， 
奉 伪 加 阳 洁 刘 尖 堵 _ 久 余数 、( 总 的 钠 失 延迟 -重要 的 缺失 区 过 ) 
计算 重 肥 的 缺失 延迟 没有 通用 的 方法 ， 因 此 对 乱 序 处 理 器 的 存储 器 层次 结构 进行 评估 需要 
模拟 处 理 器 和 存储 器 层次 结构 。 只 有 观测 到 每 次 缺失 时 处 理 器 的 执行 情况 ， 我 们 才能 知道 缺失 
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时 处 理 器 是 阻塞 下 来 等 待 数据 还 是 在 执行 其 他 工作 。 一 个 指导 方针 是 处 理 器 通常 会 隐藏 在 一 级 
cache 缺失 而 在 二 级 cache 命中 时 的 那 部 分 缺失 代价 ， 但 是 却 很 少 隐藏 二 级 cache 的 缺失 代价 。 
精 解 : 对 算法 性 能 的 挑战 在 于 : 对 相同 的 结构 采用 不 辣 的 实现 方法 ， 包 括 cache 容量 、 关 联 度 、 块 大 小 以 及 
cache 的 数量 ， 都 会 使 得 存储 器 层次 结构 变 得 多 样 化 。 为 了 复制 这 些 变化 ， 近 来 一 些 数值 库 将 它们 的 算法 变 得 参 
数 化 ， 通 过 实时 搜索 参数 空间 来 找到 特定 计算 机 上 的 最 佳 组 合 。 这 种 方法 称 为 自动 调节 《autotuning)。 
小 测验 
有 关 多 级 cache 的 设计 ， 下面 哪 些 是 正确 的 ? 
A. 一 级 cache 更 关注 命中 时 间 ， 二 级 cache 则 更 关注 缺失 率 。 
B. 一 级 cache 更 关注 缺失 率 ， 二 级 cache 则 更 关注 命中 时 间 。 





5.3.5 小 结 


在 这 一 节 中 ， 我 们 集中 讨论 了 三 个 主题 : cache 性 能 、 利 用 关联 度 来 降低 缺失 率 、 利 用 多 级 
cache 结构 来 降低 缺失 代价 。 

存储 系统 对 程序 执行 时 间 有 着 重要 影响 。 存 储 器 阻塞 时 钟 周期 数 取 决 于 缺失 率 和 缺失 代价 。 
在 第 5. 5 节 中 将 会 看 到 我 们 面临 的 挑战 ， 就 是 如 何 降低 这 些 因素 中 的 一 个 而 不 会 影响 到 存储 器 层 
次 结构 中 的 其 他 关键 因素 。 

为 了 降低 缺失 率 ， 我 们 对 关联 定位 方法 进行 研究 。 这 种 方法 通过 将 数据 块 更 灵活 地 放置 在 
cache 以 降低 缺失 率 。 全 相 联 机 制 允 许 将 抉 放 在 cache 中 的 任何 位 置 ， 但 是 仍然 需要 查找 cache 中 
的 每 一 块 以 找到 所 需 的 数据 块 。 较 高 的 成 本 使 得 大 容量 的 全 相 联 cache 是 不 切实 际 的 。 而 组 相 联 
cache 则 更 加 可 行 ， 我 们 只 需要 在 索引 唯一 选中 的 组 中 进行 查找 。 组 相 联 cache 缺失 率 更 高 ， 但 
征 访 问 速度 更 快 。 使 用 何 种 关联 度 能 达到 最 佳 性 能 不 仅 取决 于 技术 本 身 ， 还 取决 于 实现 的 细节 。 

最 后 ， 我 们 探讨 了 多 级 cache 技术 ， 它 通过 使 用 一 个 大 的 二 级 cache 来 处 理 一 级 cache 的 缺失 ， 
从 而 降低 了 缺失 代价 。 二 级 cache 已 经 逐渐 普遍 ， 这 是 因为 设计 者 发 现 由 于 硅 的 局 限 以 及 高 时 钟 频 
率 的 要 求 ， 一 级 cache 的 容量 已 经 无 法 更 大 了 。 而 二 级 cache 的 容量 通常 是 一 级 cache 的 10 倍 甚至 
更 多 ， 因 而 能 处 理 很 多 一 级 cache 缺失 引起 的 访问 。 在 这 些 情 况 下 ， 缺 失 代价 就 是 二 级 cache 的 访 
问 时 间 (通常 小 于 10 个 处 理 器 周期 ) 而 不 是 主 存 访问 时 间 (通常 大 于 100 个 处 理 器 周期 。 和 关联 
度 考 虑 相似 ， 在 二 级 cache 容量 和 访问 时 间 之 间 的 权衡 取决 于 实现 过 程 中 的 很 多 方面 。 


5.4 虚拟 存储 器 

0 这 样 的 系统 已 经 被 设计 : 对 程序 员 来 说 ， 复合 的 存储 结构 看 起 来 像 单 层 的 存储 器 ， 所 需 
的 数据 传输 也 会 自动 完成 。 

一 一 Kilburn 等 , 《One-level storage system》，1962 

在 前 面 的 章节 中 ， 我 们 知道 了 cache 是 如 何 对 程序 中 最 近 访问 的 代码 和 数据 提供 快速 访问 的 。 同 
样 ， 主 存 也 可 以 为 通常 由 磁盘 实现 的 辅助 存储 器 充当 “cache"”_ 这 项 技术 被 称 作 “虚拟 存储 器 "9。 从 
历史 观点 来 说 ， 构 造 虚 拟 存储 器 有 两 个 主要 动机 人 允许 在 多 道 程序 之 间 有 效 而 安全 地 共享 存储 器 ， 消 
除 一 个 小 而 受 限 的 主 存 容 量 对 程序 设计 造成 的 影响 。40 年 后 ， 第 一 条 变 成 主要 设计 动机 。 

考虑 一 系列 程序 在 一 台 计 算 机 上 同时 运行 的 情况 。 当然 ， 为 了 允许 多 个 程序 共享 同一 个 存 
储 絮 ， 我 们 必须 保护 每 个 程序 ， 确 保 每 个 程序 只 能 对 划 分 给 它 的 那 部 分 主 存 进行 读 写 操作 。 主 存 
从 需 存 放 众 多 程序 中 活跃 的 那 部 分 ， 就 像 cache 中 只 存放 一 个 程序 的 活跃 部 分 一 样 。 因 此 ， 局 部 
性 原理 也 造就 了 虚拟 存储 器 ， 虚拟 存储 器 使 得 我 们 能 更 有 效 地 共享 处 理 器 和 主 存 。 


加 ”虚拟 存储 器 (virtual memory) : 一 种 将 主 存 用 作 辅 助 存储 器 高 速 缓存 的 技术 。 
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在 编译 的 时 候 ， 我 们 不 知道 哪些 程序 将 和 其 他 程序 共享 存储 器 。 事 实 上 ， 当 程序 在 执行 的 时 候 ， 
程序 共享 存储 器 的 情况 是 动态 变化 的 。 由 于 这 种 动态 的 相互 影响 ， 我 们 希望 将 每 个 程序 都 编译 到 它 自 
己 的 地 址 空间 (address space) 一 一 存储 器 中 只 能 由 该 程序 访问 的 独立 的 一 连 串 地 址 。 虚 拟 存储 器 实 
现 程序 地 址 空间 到 物理 地 址 2 的 转换 。 这 种 地 址 转换 处 理 加 强 了 各 个 程序 地 址 空间 之 间 的 保护 。 

使 用 虚拟 存储 器 的 第 二 个 动机 就 是 允许 单 用 户 程 序 超过 主要 存储 器 的 容量 。 以 前 ， 如 果 一 个 程序 
对 存储 器 来 说 太 大 ， 将 它 变 成 合适 的 大 小 就 是 程序 员 的 责任 。 程 序 员 将 程序 划分 成 许多 段 ， 并 且 将 这 
些 段 标记 成 为 互 斥 的 。 这 些 履 盖 (overlay) 在 执行 过 程 中 由 用 户 程序 控制 装 人 或 换 出 ， 由 程序 员 保 证 
程序 不 会 访问 没有 装载 的 覆盖 ， 并 且 装 载 的 覆盖 不 会 超过 存储 器 的 总 容量 。 传 统 的 覆盖 被 构造 成 模块 ， 
每 一 个 都 包含 了 代码 和 数据 。 不 同 模块 之 间 的 过 程 调 用 将 导致 一 个 模块 覆盖 掉 另 一 个 模块 。 

可 以 想象 ， 这 种 责任 对 程序 员 来 说 是 很 大 的 负担 。 虚 拟 存 储 器 的 发 明 就 是 为 了 将 程序 员 从 
这 些 困 境 中 解脱 出 来 ， 它 自动 管理 由 主 存 (为 了 区 别 虚 拟 存储 器 ， 有 时 也 称 为 物理 存储 器 ) 和 
辅助 存储 器 组 成 的 两 级 存储 器 层次 结构 。 

尽管 虚拟 存储 器 和 cache 的 工作 原理 是 一 样 的 ， 但 是 不 同 的 历史 根源 决定 它们 要 使 用 不 同 的 
术语 。 虚 拟 存储 器 中 ， 块 被 称 为 页 (page) ,访问 缺失 则 被 称 为 缺 页 >。 在 虚拟 存储 器 中 ， 处 理 
器 产生 一 个 虚拟 地 址 ”， 再 结合 软 硬 件 转换 成 一 个 物理 地 址 (physical address) ， 然 后 就 可 以 被 用 
来 访问 主 存 了 。 图 5-19 显示 了 一 个 分 页 的 虚拟 寻 址 的 存储 器 被 映射 到 主 存 中 。 这 个 过 程 被 称 作 
地 址 映射 或 者 地 址 转换 “。 如 今 ， 由 虚拟 存储 器 控制 的 两 级 存储 器 层次 结构 是 DRAM 和 磁盘 ( 见 
第 1 章 ) 。 如 果 还 拿 图 书馆 作 类 比 ， 我 们 可 以 认为 一 本 书 的 书 名 就 是 虚拟 地 址 ， 物 理 地 址 则 是 这 
本 书 在 图 书馆 中 的 位 置 ， 它 可 能 是 图 书馆 的 索 书号 。 





图 5-19 在 存储 器 中 ， 主 存 中 的 块 ( 称 为 页 ) 从 一 组 地 址 
( 称 为 虚拟 地 址 ) 映射 到 另 一 组 地 址 ( 称 为 物理 地 址 ) 
访问 主 存 使 用 物理 地 址 ， 而 处 理 器 产生 虚拟 地 址 。 虚 拟 地 址 和 物理 地 址 都 被 划分 成 页 ， 因 此 一 个 虚 页 被 映射 
到 一 个 物理 页 。 当 然 ， 一 个 虚 页 也 可 能 不 在 主 存 中 ， 因 此 无 法 映射 到 物理 地 址 ; 在 这 种 情况 下 ， 页 就 被 存在 磁 
盘 上 。 物 理 页 可 以 被 两 个 指向 相同 物理 地 址 的 虚拟 地 址 共享 。 这 种 方法 用 来 使 两 个 不 同 的 程序 共享 数据 或 代码 。 


虚拟 仓储 器 还 提供 重 定位 〈relocation) 来 简化 执行 时 的 程序 加 载 过 程 。 在 用 地 址 访 存 之 前 ， 
重 定 位 将 程序 所 用 的 虚拟 地 址 映射 到 不 同 的 物理 地 址 。 重 定位 的 方法 允许 我 们 将 程序 加 载 到 主 


物理 地 址 ( physical address) : 主 存储 器 的 地 址 。 

保护 ( protection) ;一 组 确保 共享 处 理 器 、 主 存 、LO 设备 的 多 个 进程 之 间 没 有 故意 地 、 无 意 地 读 写 其 他 进程 的 
数据 机 制 ， 这 些 保 护 机 制 可 以 将 操作 系统 和 用 户 的 进程 隔离 开 来 。 

缺 页 (page fault) : 访问 的 页 不 在 主 存储 器 中 。 

虚拟 地 址 (virtual address) ， 虚拟 空间 的 地 址 ， 当 需 要 访问 主 存 时 需要 通过 地 址 映射 转换 为 物理 地 址 。 


人 (address translation) : 也 称 为 地 址 映射 〈address mapping) 。 在 访问 内 存 时 将 虚拟 地 址 腕 射 为 物理 地 址 
寺 程 。 
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存 中 的 任何 位 置 。 另 外 ， 现 今 所 有 的 虚拟 存储 器 系统 将 程序 重 定位 成 一 组 固定 大 小 的 块 〈 页 ) ， 
因此 减少 了 寻找 主 存 中 连续 的 块 来 放置 程序 的 必要 ; 取而代之 的 是 ， 操 作 系统 只 需要 在 主 存 中 
找到 足够 数量 的 页 。 
在 虚拟 存储 器 中 ， 地 址 被 划分 为 虚 页 号 〈virtual page number) 和 页 内 偏 移 (page offset ) 。 
图 5-20 所 示 是 虚 页 号 到 物理 页 号 (physical page number) 的 转换 。 物 理 页 号 构成 物理 地 址 的 高 位 
部 分 ， 而 页 内 偏 移 是 不 变 的 ， 构 成 物理 地 址 的 低位 部 分 。 页 内 偏 移 域 的 位 数 决 定 了 页 的 大 小 。 虚 
拟 地 址 可 寻 址 的 页 数 与 物理 地 址 可 寻 址 的 页 数 可 以 不 同 。 拥 有 上 比 物理 页 数 多 得 多 的 虚 页 数 是 描 
述 一 个 没有 容量 限制 的 虚拟 存储 器 的 假象 的 基础 。 
虚 氢 地 址 











29 28 27 





页 内 偏 移 








物理 地 址 


图 5-20 虚拟 地 址 到 物理 地 址 的 映射 
页 大 小 为 2 =4 KB。 由 于 物理 页 号 有 18 位 ， 存 储 器 中 物理 页 数 为 28 。 因 此， 最 多 可 以 支持 1 CB 的 主 存 ， 
而 虚拟 地 址 空间 为 4 GB。 
缺失 引发 的 高 代价 是 许多 设计 选择 虚拟 存储 系统 的 原因 ， 缺 失 在 虚拟 存储 器 中 通常 称 为 缺 
页 。 一 次 缺 页 处 理 将 花费 数 百 万 个 时 钟 周期 (5. 1 节 的 表 指 出 了 主 存储 器 大 概 比 磁 盘 快 100 000 
倍 )。 这 一 巨大 的 缺失 代价 ， 主 要 由 取得 标准 大 小 的 页 中 第 一 个 字 所 需 的 时 间 来 确定 ， 因 此 在 设 
计 虚 拟 存 储 系统 时 需要 考虑 一 些 关 键 性 的 因素 。 
。 为 了 弥补 较 长 的 访问 时 间 ， 页 应 该 足够 大 。 目 前 典型 的 页 大 小 从 4 KB 到 16 KB。 能 支持 
32 KB 到 64 KB 页 的 新 型 台式 计算 机 和 服务 器 正在 被 研发 ,但 是 新 的 嵌入 式 系 统 走 的 是 
相反 的 方向 ， 页 大 小 为 1 KB。 
。 能 降低 缺 页 率 的 组 织 结构 具有 吸引 力 。 这 里 用 到 的 主要 技术 是 允许 存储 器 中 的 页 以 全 相 
联 方式 放置 。 
。 缺 丰 可 以 用 软件 处 理 ， 这 是 因为 与 访问 磁盘 的 时 间 相 比 ， 这 样 的 开销 不 算 大 。 此 外 ， 软 
件 可 以 使 用 一 些 更 先进 的 算法 来 选择 替换 页 ， 只 要 缺失 率 减 少 很 小 一 部 分 就 是 以 弥补 算 
法 的 开销 。 
。 由 于 写 时 间 太 长 ， 因 此 在 虚拟 存储 器 中 ， 写 直达 机 制 不 能 很 好 地 管理 写 操作 。 因 此 虚拟 
存储 系统 中 都 采用 写 回 机 制 。 
下 面 风 节 将 把 这 些 因 素 融 入 到 虚拟 存储 器 的 设计 中 去 。 
精 解 : 通常 我 们 认为 虚拟 地 址 要 远大 于 物理 地 址 ， 但 是 如 果 相 对 于 存储 技术 ， 处 理 器 地 址 字 较 小 的 时 
修 ， 相 反 的 情况 也 会 出 现 。 单 个 程序 不 会 受益 ,但 是 一 组 程序 同时 执行 就 可 能 因 无 需 交 换 到 主 存 ， 或 者 在 
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并 行 处 理 器 上 执行 而 受益 。 对 台式 机 和 服务 器 来 说 ，32 位 地 址 的 处 理 器 已 经 很 有 问题 了 。 

精 解 : 本 书 对 虚拟 存储 器 的 讨论 主要 集中 于 使 用 固定 大 小 的 块 的 页 式 虚拟 存储 。 还 有 一 种 可 变 长 度 据 
的 机 制 称 为 段 式 ”。 在 段 式 存储 中 ， 地 址 由 两 部 分 组 成 : 段 号 和 段 内 偏 移 。 眉 寄存 器 被 映射 到 物理 地 址 ， 
然后 与 段 内 偏 移 量 相 加 来 找到 实际 物理 地 址 。 因 为 段 大 小 是 可 变 的 ， 所 以 还 需要 进行 边界 检查 以 确定 偏 移 
量 在 段 内 。 分 段 最 主要 的 应 用 就 是 支持 更 多 有 效 的 保护 方法 ， 以 及 共享 地 址 空间 。 与 分 页 相 比 ， 大 多 数 操 
作 系 统 的 教科 书 都 会 更 多 地 讨论 分 段 ， 以 及 如 何 利用 分 段 来 逻辑 共享 地 址 空间 。 分 段 的 主要 缺点 在 于 它 将 
地 址 空间 划分 为 许多 你 辑 上 独立 的 块 ， 因 而 这 些 块 就 由 两 部 分 地 址 控制 : 段 号 和 段 内 偏 移 。 相 反 ， 分 页 使 
得 页 号 和 偶 移 量 的 界限 对 于 程序 员 和 编译 器 都 是 不 可 见 的 。 

分 段 也 曾 被 用 作 不 改变 计算 机 字 的 大 小 而 扩展 地 址 空间 的 方法 。 然 而 这 些 尝 试 都 没有 获得 成 功 ， 这 是 
由 于 程序 员 和 编译 器 必须 意识 到 使 用 两 部 分 地 址 本 身 的 不 便 和 性 能 代价 。 

许多 体系 结构 将 地 址 空仓 划分 成 固定 大 小 的 大 块 以 简化 操作 系统 和 用 户 程 序 之 间 的 保护 ， 同 时 提高 分 
页 实现 的 效率 。 尽 管 这 些 划分 通常 称 为 “ 段 ” ， 但 是 这 种 结构 比 块 大 小 可 变 的 分 段 要 简单 得 多 ， 并 且 对 用 
户 程 序 不 可 见 。 稍 后 我 们 对 此 进行 详细 讨论 。 


5.4.1 页 的 存放 和 查找 


由 于 缺 页 的 代价 高 得 惊人 ， 设 计 人 员 通 过 对 页 的 放置 进行 优化 从 而 降低 缺 页 频率 。 如 果 介 
许 一 个 虚拟 页 映射 到 任何 一 个 物理 页 ， 那么 当 缺 页 发 生 时 ， 操 作 系 统 可 以 选择 任意 一 个 页 进行 
蔡 换 。 例 如 ， 操 作 系统 可 以 使 用 复杂 的 算法 和 复杂 的 数据 结构 来 追踪 页 的 使 用 情况 以 选择 在 较 
长 一 段 时 间 内 不 会 被 用 到 的 页 。 使 用 更 先进 更 灵活 的 替换 策略 降低 了 缺 页 率 ， 也 使 全 相 联 方式 
下 页 的 放置 变 得 更 简单 。 

正如 在 5. 3 节 中 提 到 的 ， 全 相 联 映射 的 困难 在 于 项 的 定位 ， 这 是 由 于 它 可 能 在 较 高 的 存储 层次 
中 的 任何 位 置 。 全 部 进行 检索 是 不 切实 际 的 。 在 虚拟 存储 系统 中 ， 我 们 使 用 一 个 索引 存储 器 的 表 来 
定位 页 ; 这 种 结构 称 为 页 表 ”， 它 被 存放 在 存储 器 中 。 页 表 使 用 虚拟 地 址 中 的 页 号 作 索 引 ， 以 找到 
相应 的 物理 页 号 。 每 个 程序 都 有 它 自己 的 页 表 ， 用 来 将 程序 的 虚拟 地 址 空间 映射 到 主 存 中 。 让 我 们 
再 用 图 书馆 进行 类 比 ， 页 表 对 应 于 书 名 和 藏书 位 置 之 间 的 映射 。 就 像 卡片 目录 可 能 会 包含 学 校 中 另 
一 个 图 书馆 中 书 的 条 目 ， 而 不 仅仅 是 本 地 的 分 馆 ， 我 们 将 看 见 页 表 也 可 能 含有 不 在 存储 器 中 的 页 的 
条 目 。 为 了 指出 页 表 在 存储 器 中 的 位 置 ， 硬 件 包含 一 个 指向 页 表 首 地 址 的 寄存 器 ; 我 们 称 之 为 页 表 
寄存 器 (page table register) 。 现 在 假定 页 表 存 在 于 存储 器 中 一 个 固定 的 连续 区 域内 。 
ER 可 

页 表 、 程 序 计数 器 以 及 寄存 器 ， 确 定 了 一 个 程序 的 状态 (state) 。 如 果 我 们 想 让 另 一 个 程序 
仗 用 处 理 器 ， 我 们 必须 保存 该 状态 。 随 后 ， 在 恢复 了 该 状态 之 后 ， 程 序 就 可 以 继续 执行 我 们 通 
常 称 该 状态 为 一 个 进程 (process)。 如 果 一 个 进程 占据 了 处 理 器 ， 那 么 这 个 进程 就 是 活跃 的 (ac 
hve) ， 否 见 就 认为 它 是 非 活跃 的 〈(inaetive) 。 操 作 系统 可 以 通过 加 载 进程 的 状态 令 一 个 进程 活路 
起 来 ， 同 时 激活 程序 计数 器 ， 进 程 将 会 在 程序 计数 器 中 保存 的 值 处 开始 执行 。 

进程 的 地 址 空间 ， 以 及 它 在 主 存 中 可 以 访问 的 所 有 数据 ， 都 由 驻 在 主 存 中 的 页 表 所 定义 。 操 
作 系统 只 是 简单 地 加 载 页 表 寄 存 器 用 来 指向 它 想 激活 的 进程 的 页 表 ， 而 不 是 保存 整个 页 表 。 出 
于 个 同 进程 使 用 相同 的 虚拟 地 址 ， 因 此 每 个 进程 有 各 自 的 页 表 。 操 作 系 统 负责 分 配 物理 主 在 和 





日 A emenation ) : 一 种 可 变 长 度 的 地 址 映射 策略 ， 其 中 每 个 地 址 由 两 部 分 组 成 : 映射 到 物理 地 址 的 段 号 和 段 
避 页 表 (page table) : 保存 着 虚拟 地 址 和 物理 地 址 之 间 转 换 关系 的 表 。 外表 保存 在 主 存 中 ， 通 常 使 用 虚 页 号 来 索 
引 ， 如 果 这 个 虚 页 当前 在 主 存 中 ， 页 表 中 的 对 应 项 将 包含 虑 页 对 应 的 物理 页 号 。 
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更 新 页 表 ， 因 此 不 同 进程 的 虚拟 地 址 空间 不 会 发 生 冲 突 。 我 们 很 快 会 看 到 ， 使 用 分 离 的 页 表 同 样 
能 分 别 保护 进程 。 

图 5-21 使 用 页 表 寄 存 器 、 虚 拟 地 址 以 及 被 指向 的 页 表 来 说 明 硬 件 是 如 何 形成 物理 地 址 的 。 
每 个 页 表 项 使 用 1 位 有 效 位 ， 就 像 在 cache 中 设计 的 一 样 。 如 果 该 位 为 0， 该 页 就 不 在 主 存 中 ， 
就 发 生 一 次 缺 页 。 如 果 该 位 为 1， 表明 该 页 在 主 存 中 ， 并 且 该 项 包含 有 物理 页 号 。 


| 页 表 寄 存 器 


虚拟 地 址 






如 果 有 效 位 是 0， 婴 
这 个 页 不 在 主 存 中 


29 28 27 [和 ] 14 13 12 11 10 9 8. 


物理 地 址 


图 5-21 用 虚拟 页 号 来 索引 页 表 以 获得 对 应 的 物理 地 址 部 分 
假定 地 址 为 32 位 。 页 表 的 首 地 址 由 页 表 指针 给 出 。 在 本 图 中 ， 页 大 小 为 22 字 节 ， 即 4 KB， 虚拟 地 址 空间 为 2? 字 
节 ， 即 4CB， 物 理 地 址 空间 为 2" 字 节 ， 可 以 支持 高 达 1 GB 的 主 存 。 页 表 项 数 为 2?， 即 100 万 项 。 每 一 项 的 有 效 位 指 
出 了 映射 是 否 合 法 。 如 果 该 位 为 0， 那 么 该 页 就 不 在 主 存 中 。 尽管 图 中 所 示 的 页 表 项 宽度 只 需 19 位 ,但 为 了 寻 址 方 
便 ， 通 常 让 它 有 32 位 。 其 他 位 则 用 来 存放 每 页 都 要 保留 的 基本 的 附加 信息 ， 如 保护 信息 。 


由 于 页 表 包 含 了 每 个 可 能 的 虚拟 页 的 映射 ， 因 此 不 需要 标记 位 。 在 cache 术语 中 ， 索引 是 用 
来 访问 页 表 的 ， 由 整个 块 地 址 即 虚 页 号 组 成 。 


5. 4.2 缺 页 


如 果 处 拟 页 的 有 效 位 关闭 ， 就 会 发 生 缺 页 。 操 作 系统 获得 控制 权 。 控 制 的 转移 由 异常 机 制 完 
成 ， 这 点 在 本 节 稍 后 进行 讨论 。 一 旦 操作 系统 获得 控制 权 ， 它 必须 在 下 一 级 存储 层次 ( 通 党 是 
人 磁盘) 中 找到 该 页 然后 决定 将 请 求 页 放 到 主 存 的 什么 位 置 。 

应 拟 地 址 本 身 并 不 会 马上 告诉 我 们 页 在 磁盘 中 的 位 置 。 还 拿 图 书馆 作 类 比 ， 我 们 不 能 仅仅 依靠 书 
名 就 找到 图 书 的 具体 位 置 。 而 是 ， 按 目录 查找 ， 获 得 书 在 书架 上 的 位 置信 息 ， 比 如 说 图 书馆 的 索引 书 
号 。 同样， 在 虚拟 存储 系统 中 ， 我 们 必须 保持 追踪 记录 虚拟 地 址 空间 的 每 “页 在 磁盘 上 的 位 置 ， 

由 于 我 们 无 法 提前 获知 存储 器 中 的 某 一 页 什么 时 候 将 被 替换 出 去 ， 因 此 操作 系统 在 创建 进程 的 时 
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候 通 常会 在 磁盘 上 为 进程 中 所 有 的 页 创建 空间 。 这 一 磁盘 空间 称 为 交换 区 ”*。 同 时 ， 它 也 创建 一 个 数 
据 结 构 来 记录 每 个 虚拟 页 在 磁盘 上 的 存放 位 置 。 这 个 数据 结构 可 能 是 页 表 中 的 一 部 分 ， 也 可 能 是 辅助 
数据 结构 ， 寻 址 方式 和 页 表 一 样 。 图 5-22 是 一 个 包含 物理 页 号 或 磁盘 地 址 的 单个 表 的 结构 。 


虚拟 页 号 





图 5-22 页 表 将 虚拟 存储 器 中 的 每 一 页 映射 到 主 存 中 的 一 页 或 者 存储 结构 的 下 一 层 (磁盘 上 的 一 页 ) 
虚拟 页 号 用 来 检索 页 表 。 如 果 有 效 位 开启 ， 页 表 提 供 虚 页 对 应 的 物理 页 号 (如 存储 器 中 该 页 的 首 地 址 )。 如 
果 有 效 位 关闭 ， 那 么 该 页 就 只 存在 磁盘 上 的 某 个 指定 的 磁盘 地 址 。 在 许多 系统 中 ， 物 理 页 地 址 和 磁盘 页 地 址 的 
表 ， 它 们 逻辑 上 是 一 个 表 ， 但 是 保存 在 两 个 独立 的 数据 结构 中 。 使 用 双 表 在 某 种 程度 上 是 正确 的 ， 因 为 我 们 必 
须 保 存 所 有 页 的 磁盘 地 址 ， 即 使 有 些 页 当前 不 在 主 存 中 。 请 记 住 主 存 中 的 页 和 磁盘 上 的 页 大 小 相等 。 


操作 系统 同样 会 创建 一 个 数据 结构 来 追踪 记录 使 用 每 个 物理 页 的 是 哪些 进程 和 哪些 虚拟 地 
址 。 当 一 次 缺 页 发 生 时 ， 如 果 主 存 中 所 有 的 页 都 在 使 用 ， 操 作 系统 就 必须 选择 一 页 进行 替换 。 我 
们 希望 最 小 化 缺 页 的 次 数 ， 因 而 大 多 数 操作 系统 都 会 选择 它们 认为 近期 内 不 会 被 使 用 的 页 进行 
营 换 。 使 用 过 去 的 信息 来 预测 未 来 ， 操 作 系统 遵循 我 们 在 5. 3 节 中 提 到 的 最 近 最 少 使 用 替换 策略 
(LRU) 。 操 作 系统 查找 最 近 最 少 使 用 的 页 ， 假 定 某 一 页 在 很 长 一 段 时 间 都 没有 被 访问 ， 那 么 该 
页 再 筱 访问 的 可 能 性 比 最 近 经 常 访问 的 页 的 可 能 性 要 小 。 被 替换 的 页 写 人 磁盘 的 交换 区 。 如 果 
还 不 是 很 明白 ， 可 以 把 操作 系统 看 成 是 另 一 个 进程 ， 而 那些 控制 主 存 的 表 也 在 主 存 中 ， 这 看 起 来 
似乎 有 些 子 盾 ， 稍 后 将 具体 解释 。 

要 完全 准确 地 执行 LRU 算法 的 代价 太 高 了 ， 因 为 每 次 存储 器 访问 时 都 需要 更 新 数据 结构 。 
作为 着 代 ， 大 多 数 操作 系统 通过 追踪 哪些 页 最 近 被 使 有 用， 哪些 页 最 近 没 有 用 到 来 近似 地 实现 
LRU 算法 。 为 了 帮助 操作 系统 估算 最 近 最 少 使 用 的 页 ， 一 些 计算 机 提供 了 一 个 引用 位 e 或 者 称 为 
使 用 位 ， 当 一 页 被 访问 时 该 位 被 置 位 。 操 作 系统 定期 将 引用 位 清 零 ， 然 后 再 重新 记录 ， 这 样 就 可 
以 判定 在 这 段 特定 时 间 内 哪些 页 被 访问 过 。 有 了 这 些 使 用 信息 ， 操 作 系统 就 可 以 从 那些 最 近 最 
少 访问 的 页 中 选择 一 页 (通过 检查 其 引用 位 是 否 关 闭 ) 。 如 果 硬 件 没有 提供 这 一 位 ， 操 作 系 统 吝 
要 通过 其 他 的 方法 来 估计 哪些 页 被 访问 过 。 z 


© 交换 区 (swap space) : 为 进程 的 全 部 虚拟 地 址 空间 所 预 留 的 磁盘 空间 。 
© 引用 位 《reference bit) ， 也 称 为 使 用 位 《use bit) 。 每 当 访问 一 个 页 面 时 该 位 被 置 位 ， 通常 用 米 实现 LRU 或 其 他 
替换 策略 。 
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精 解 虚拟 地 址 为 32 位， 页 大 小 为 4KB， 页 表 每 一 项 为 4 个 字 节 ,我们 可 以 计算 总 的 页 表 容 量 为 
页 表 项 数 = 2 = 22 


了 到 
页 表 容 量 = 22 个 页 表 项 x 22 二 = 4 MB 


也 就 是 说 ， 每 个 程序 在 执行 的 任何 时 候 都 需要 4 MB 的 存储 器 空间 。 对 单个 程序 来 说 ， 这 个 大 小 并 不 
差 。 但 是 如 果 计 算 机 中 同时 有 成 百 上 千 的 程序 同时 执行 时 ， 每 一 个 程序 有 各 自 的 页 表 ， 这 将 会 怎样 ? 我 们 
又 如 何 处 理 64 位 地 址 ， 通 过 这 个 计算 需要 2” 个 字 ? 

一 系列 的 技术 已 经 被 用 于 减少 页 表 所 需 的 存储 量 。 下 面 五 种 技术 都 是 针对 减少 所 需 的 最 大 
存储 量 以 及 减少 用 于 页 表 的 主 存 。 

1) 最 简单 的 技术 是 使 用 一 个 界限 寄存 器 ， 对 给 定 的 进程 限制 其 页 表 的 大 小 。 如 果 虚 拟 页 号 
大 于 界限 寄存 器 中 的 值 ， 就 必须 在 页 表 中 加 入 该 项 。 这 种 技术 允许 页 表 随 着 进程 消耗 空间 的 增 
多 而 增长 。 因 此 ， 只 有 当 进 程 使 用 了 虚拟 地 址 空间 许多 页 时 ， 页 表 才 会 变 得 很 大 。 这 种 技术 要 求 
地 址 空间 只 朝 一 个 方向 扩展 。 

2) 人 允许 地 址 空间 只 朝 一 个 方向 增长 并 不 够 ， 因 为 多 数 语言 需要 两 种 大 小 可 扩展 的 区 域 ， 一 
个 用 来 保留 栈 ， 一 个 用 来 保留 堆 。 由 于 这 种 二 元 性 ， 如 果 将 页 表 划 分 ， 使 其 既 能 从 最 高 地 址 向 下 
扩展 ， 也 能 从 最 低地 址 向 上 扩展 ， 就 方便 多 了 。 这 也 就 意味 着 有 两 个 独立 的 页 表 和 两 个 独立 的 界 
限 。 两 个 页 表 的 使 用 将 地 址 空间 分 成 两 段 。 地 址 的 高 位 用 来 判断 该 地 址 使 用 了 哪个 段 和 哪个 页 
表 。 由 于 段 由 地 址 的 高 位 部 分 决定 ， 每 一 段 可 以 有 地 址 空间 的 一 半 大 。 每 段 的 界限 寄存 器 指定 了 
当前 段 的 大 小 ， 该 大 小 以 页 为 单位 增长 。 这 种 类 型 的 段 被 应 用 于 很 多 体系 结构 ， 包 括 MIPS 结 
构 。 不 同 于 5.4 节 的 第 二 个 精 解 中 讨论 的 段 ， 这 种 形式 的 段 对 应 用 程序 是 不 可 见 的 ， 尽 管 它 对 操 
作 系 统 可 见 。 这 种 机 制 主要 的 缺陷 在 于 当 以 一 种 稀 朴 方式 使 用 地 址 空间 而 不 是 一 组 连续 的 虚拟 
地 址 时 ， 它 的 执行 效果 就 不 太 好 。 

3) 为 外 一 种 减 小 页 表 容量 的 方法 是 对 虚拟 地 址 使 用 哈 希 函数 ， 这 样 ， 页 表 需 要 的 容量 仅仅 
是 主 存 中 的 物理 页 数 。 这 种 结构 称 为 反 置 页 表 (inverted page table)。 当 然 ， 反 冒 页 表 的 查找 过 
程 略微 有 些 复杂 ， 因 为 我 们 不 能 仅仅 依靠 索引 来 访问 页 表 。 

4) 多 级 页 表 同 样 可 以 用 来 减少 页 表 存储 量 。 第 一 级 映射 到 虚拟 地 址 空间 中 较 大 的 固定 大 小 
的 块 ,一 共有 64 ~256 页 。 这 些 大 的 块 有 时 候 被 称 为 段 ， 而 第 一 级 的 映射 表 有 时 被 称 为 段 表 ， 对 
用 户 来 说 段 表 是 不 可 见 的 。 段 表 中 的 每 一 项 指出 了 该 段 中 是 否 有 页 被 分 配 ， 如 果 有 ， 就 指向 该 段 
的 页 表 。 地 址 转换 发 生 在 第 一 次 段 表 查 找 时 ， 使 用 地 址 的 高 位 部 分 。 如 果 段 地 址 有 效 ， 下 一 组 高 
位 地 址 则 用 来 案 引 由 有 段 表 项 指向 的 页 表 。 这 种 机 制 允 许 以 一 种 稀疏 的 方式 (多 个 不 相连 的 段 同 
时 处 于 活 唉 状态 ) 来 使 用 地 址 空间 而 不 用 分 配 整个 页 表 。 对 很 大 的 地 址 空间 和 在 需要 非 连续 地 
址 分 配 的 软件 系统 中 ， 这 种 机 制 尤为 有 效 。 但 是 这 种 两 级 映射 方式 的 主要 缺陷 在 于 地 址 转换 过 
程 更 为 复杂 。 

5) 为 了 减少 页 表 占 用 的 实际 主 存 空 间 ， 现 在 ， 多 数 系统 也 允许 页 表 分 页 。 尽 管 听 起 来 这 很 
复杂 ,但 是 它 的 工作 原理 和 虚拟 存储 器 一 样 ， 并 且 允 许 页 表 驻 留 在 虚拟 地 址 空间 中 。 另 外 ， 还 有 
一 此 很 小 却 很 关键 的 问题 例如， 要 避免 不 断 出 现 的 缺 页 。 如 何 克 服 这 些 问题 都 描述 地 很 细节 化 
开 且 一 般 因 机 器 而 异 。 简 而 言 之 ,要 避免 这 些 问题 ， 可 以 将 全 部 页 表 转 于 操作 系统 地 址 空间 中 ， 
并 且 至 少 要 把 操作 系统 中 一 部 分 页 表 放 在 主 存 中 的 可 物理 寻 址 的 -- 块 区 域 中 ， 这 部 分 页 表 总 是 
存在 于 主 存 而 非 磁盘 中 。 
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5. 4. 3 ”关于 写 


访问 cache 和 主 存 的 时 间 相 差 上 百 个 时 钟 周 期 ， 写 直达 机 制 也 可 以 使 用 ， 但 是 我 们 需要 一 个 
写 缓 冲 区 来 隐藏 写 延 迟 。 在 虚拟 存储 器 系统 中 ， 对 存储 器 层次 结构 中 下 一 层 (磁盘 ) 的 写 操作 
需要 数 百 万 个 处 理 器 时 钟 周 期 ; 因此 ， 创 建 一 个 缓冲 区 用 来 允许 系统 用 写 直达 的 方式 对 磁盘 进 
行 号 ， 这 种 方法 是 完全 不 可 行 的 。 相 反 ， 虚 拟人 存储 器 系统 必须 使 用 写 回 机 制 ， 对 存储 器 中 的 页 进 
行 单独 写 ， 并 且 在 该 页 被 替换 出 存储 器 时 再 被 复制 到 磁盘 中 去 。 
硬件 :软件 接口 

在 虚拟 存储 系统 中 ， 写 回 机 制 有 另 一 个 主要 的 优点 。 因 为 相对 于 磁 副 访问 时 间 ， 其 传输 
时 间 要 少 得 多 ， 因 此 ， 把 整 页 复制 回 磁盘 比 把 单个 字 写 回 要 高 效 得 多 。 尽 管 写 回 操作 比 传输 
单个 字 更 高 效 ， 但 是 开销 很 大 。 因 此 ， 当 某 一 页 被 蔡 换 时 ， 我 们 希望 知道 该 页 是 和 否 需 要 被 复 
制 写 回 。 为 了 追踪 读 入 主 存 中 的 页 是 否 被 写 过 ， 可 以 在 页 表 中 增加 一 个 重 写 位 (dirty bit) 。 当 
页 中 任何 字 被 写 时 就 将 这 一 位 置 位 。 如 果 操 作 系 统 选择 替换 某 一 页 ， 重 写 位 指明 了 在 把 该 页 
所 占用 的 主 存 让 给 另 一 页 之 前 ， 是 否 需 要 将 该 页 写 回 磁盘 。 因 此 ， 一 个 修改 过 的 页 也 通常 被 
称 为 脏 页 (dirty page)。 


5. 4.4 加 快 地 址 转换 ，TLB 


由 于 页 表 人 存放 在 主 存 中 ， 因 此 程序 每 次 访 存 至 少 需要 两 次 : 一 次 访 存 以 获得 物理 地 址 ， 第 二 
次 访 存 才 获得 数据 。 提 高 访问 性 能 的 关键 在 于 依靠 页 表 的 访问 局 部 性 。 当 一 个 转换 的 虚拟 页 号 
被 使 用 时 ， 它 可 能 在 不 久 的 将 来 再 次 被 使 用 到 ， 因 为 对 该 页 中 字 的 引用 同时 具有 时 间 局 部 性 和 
空间 局 部 性 。 

因此 ， 现 代 处 理 器 都 包含 一 个 特殊 的 cache 以 追踪 最 近 使 用 过 的 地 址 变换 。 这 个 特殊 的 地 址 
转换 cache 通常 称 为 快 表 ( TLB)” (将 其 称 为 地 址 变换 高 速 缓存 更 精确 ) 。TLB 就 相当 于 记录 卡 
片 目录 中 的 一 些 书 的 位 置 的 小 纸 片 ;我们 在 纸 片 上 记录 一 些 书 的 位 置 ， 并 且 将 小 纸 片 当成 图 书 
馆 索 书号 的 cache， 这 样 就 不 用 一 直 在 整个 目录 中 搜索 了 。 

如 图 5-23 所 示 ，TLB 的 每 个 标记 项 存放 虚拟 页 号 的 一 部 分 ， 每 个 数据 项 中 存放 了 物理 页 号 。 
由 于 我 们 每 次 访问 的 是 TLB 而 不 是 页 表 ，TLB 需要 包括 其 他 状态 位 ， 如 重 写 位 和 引用 位 。 

每 次 访问 ， 我 们 都 要 在 TLB 中 查找 虚拟 页 号 。 如 果 命中 ， 物理 页 号 就 用 来 形成 地 址 ， 相 应 
的 引用 位 被 置 位 。 如 果 处 理 器 执行 的 是 写 操作 ， 重 写 位 同样 要 被 置 位 。 如 果 TLB 发 生 缺 失 ， 我 
们 必须 判断 是 发 生 缺 页 还 是 仅仅 是 一 次 TLB 缺失 。 如 果 该 页 在 主 存 中 ,那么 TLB 缺失 只 是 一 次 
转换 缺失 。 在 这 种 情况 下 ， 处 理 器 可 以 通过 将 页 表 中 的 变换 装载 到 TILB 中 并 且 重 新 访问 来 进行 
缺失 处 理 。 如 果 该 页 不 在 主 存 中 ，TLB 缺失 就 是 一 次 真 的 缺 页 。 在 这 种 情况 下 ， 处 理 器 调用 操作 
系统 的 异常 处 理 。 由 于 TLB 中 的 项 比 主 存 中 的 页 数 少 得 多 ， 发 生 TLB 缺失 会 比 缺 页 要 频繁 得 多 。 

TLB 缺失 既 可 以 通过 硬件 处 理 ， 也 可 以 通过 软件 处 理 。 实 际 上 ， 两 种 方法 的 性 能 差别 很 小 ， 
这 是 因为 无 论 哪 种 方法 ,需要 执行 的 基本 操作 都 是 -- 样 的 。 

在 发 生 了 TLB 缺失 ， 并 且 已 经 在 页 表 中 找到 了 缺失 的 变化 时 ， 我 们 就 需要 从 TLB 中 选择 一 
项 进行 替换 。 由 于 TLB 表 项 中 包含 了 引用 位 和 重 写 位 ， 当 替 换 某 一 项 时 ,需要 把 这 些 位 复制 回 
页 表 项 中 。 这 些 位 是 TLB 表 项 中 唯一 可 以 修改 的 部 分 。 利用 写 回 策略 一 一 只 是 在 缺失 的 时 候 将 





© i ( translation- lookaside buffer, TLB). 用 于 记录 最 近 使 用 地 址 的 映射 信息 的 高 速 缓存 ， 从 而 可 以 避免 每 次 都 
访问 页 表 。 
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这 些 表 项 写 回 而 不 是 任何 写 操作 都 写 回 一 一 是 非常 有 效 的 ， 因 为 TLB 缺失 率 有 望 较 低 。 一 些 系 
统 使 用 其 他 技术 来 近似 引用 位 和 重 写 位 ， 以 消除 除了 缺失 后 装 和 人 新 表 项 之 外 写 TLB 的 必要 。 
TLB 


虚拟 页 号 有 效 位 重 写 位 引用 位 ”标记 物理 页 地 址 


物理 存储 器 








人 


-|s| 
| 
\ 
\ 
NA 


有 效 位 





3-23 TLB 作为 页 表 的 cache， 用 于 存放 映射 到 物理 页 中 的 那些 项 
TIB 包含 了 页 表 中 庶 页 到 物理 页 映射 的 一 个 子 集 。TLB 映射 以 粗 线 显示 。 因 为 TLB 是 - -个 cache， 它 必须 有 

你 记 域 。 如 果 一 个 页 在 TLB 中 没有 匹配 的 项 ， 就 必须 检查 页 表 。 页 表 或 者 提供 该 页 的 物理 页 号 (可 用 来 创建 

一 个 TLB 项 )， 或 者 指出 该 页 在 磁盘 上 ， 这 时 就 会 发 生 缺 页 。 由 于 页 表 对 于 每 个 虚 页 都 有 一 个 相应 的 项 ， 并 不 

需要 标记 ; 换 句 话说 ,不 同 于 TLB， 页 表 并 不 是 cache。 

TLB 的 一 些 典型 的 值 为 

。 TLB 大 小 : 16 ~512 个 项 。 

。 抉 大 小 : 1 ~2 个 页 表 项 (通常 每 个 为 4~8 个 字 节 ) 。 

。 命中 时 间 : 0.5 ~1 个 时 钟 周期 。 

。 缺失 代价 ; 10 ~ 100 个 时 钟 周期 。 

e 缺失 率 :; 0.01% ~1% 。 

设计 者 在 TLB 设计 中 对 关联 度 的 设置 非常 多 样 化 。 有 些 系统 使 用 小 的 全 相 联 的 TLB， 这 是 由 
于 全 相 联 有 较 低 的 缺失 率 ; 此 外 ， 由 于 TLB 很 小 ， 全 相 联 映射 的 成 本 也 不 会 太 高 。 其 他 一 些 系 
统 通常 使 用 关联 度 低 且 容量 大 的 TLB。 在 全 相 联 映射 的 方式 下 ， 由 于 用 硬件 实现 LRU 策略 的 代 
价 很 大 ， 因 此 替换 项 的 选择 就 很 复杂 。 另 外 ， 由 于 TLB 的 缺失 比 缺 页 要 频繁 得 多 ， 因 此 需要 用 
较 低 的 代价 来 处 理 缺 失 ， 而 不 能 像 缺 页 处 理 那 样 选择 一 个 开销 大 的 软件 算法 。 所 以 很 多 系统 都 
支持 随机 地 选择 替换 表 项 。 在 5.5 节 中 我 们 将 会 详细 讨论 替换 策略 。 

内 置 FastMATH TLB 

勺 了 工 清 楚 这 些 想 法 是 如 何 实际 应 用 到 处 理 器 中 的 ， 我 们 来 进一步 研究 内 置 FastMATH 的 
了 LB。 和 存储 系统 页 大 小 为 4KB， 地 址 空间 为 32 位 ， 因 此 ， 虚拟 页 号 长 为 20 位 ， 如 图 5-24 顶部 所 
不 。 物 理 地 址 和 虚拟 地 址 长 度 相 等 。TLB 包含 了 16 个 项 ,采用 全 相 联 映射 ,由 指令 和 数据 访问 
共 孚 。 每 个 表 项 宽 为 64 位， 包含 了 20 位 的 标记 位 (作为 该 TLB 表 项 的 虚 页 号 ) 、 相 应 的 物理 页 
子 《 也 是 20 位 )、 一 个 有 效 位 、 一 个 重 写 位 以 及 一 些 其 他 管理 操作 位 。 
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虚拟 地 址 





物理 地 址 标记 索引 


EY 
慌 二 


洋 
广 


索引 








| 
iD 


数据 


5-24 ”内置 FastMATH 中 TLB 和 cache 实现 了 从 虚拟 地 址 到 数据 项 的 转换 过 程 
本 图 描述 了 TLB 和 数据 cache 的 结构 ， 这 里 假设 页 大 小 是 4 KB。 本 图 主要 研究 读 操作 ， 图 5-25 则 描述 了 
如 何 处 理 写 操作 。 注 意 到 不 同 于 图 5-9， 标 记 和 数据 RAM 是 分 开 的 。 用 cache 索引 和 块 内 偏 移 来 寻 址 长 而 害 
的 数据 RAM ， 无 需 使 用 16: 1 的 多 路 选择 器 我 们 也 能 选 出 块 中 所 需 的 字 。 当 cache 采用 直接 映射 方式 时 ， 
TLB 是 全 相 联 的 。 由 于 需要 的 项 可 能 在 TLB 中 的 任何 位 置 ， 因 此 要 实现 全 相 联 TLB 需要 将 每 个 TLB 标记 都 
与 虚拟 页 号 进行 比较 (参考 5. 3. 2 节 精 解 的 内 容 ) 。 如 果 匹 配 表 项 的 有 效 位 为 1， 那 么 TLB 访问 命中 ， 物 理 
页 号 与 页 内 偏 移 中 的 位 共同 形成 访问 cache 的 索引 。 


图 5-24 是 TLB 和 一 个 cache， 图 5-25 则 说 明了 处 理 一 次 读 或 写 请 求 的 步骤 。 当 一 次 TLB 负 
失 发 生 时 ，MIPS 硬件 把 被 访问 的 页 号 保存 在 一 个 特殊 寄存 器 中 ， 并 产生 一 次 异常 。 异 党 请 求 操 
作 系统 通过 软件 处 理 缺 失 。 为 了 找到 缺失 的 页 的 物理 地 址 ， TLB 缺失 程序 用 虚拟 地 址 的 页 号 以 及 
指出 活路 进程 页 表 起 始 地 址 的 页 表 寄 存 器 来 检索 页 表 。 通 过 使 用 一 系列 更 新 TLB 的 特殊 指令 ， 
操作 系统 将 页 表 中 的 物理 地 址 放 人 TLB 中 。 假 设 代码 和 页 表 项 都 在 指令 cache 和 数据 cache A 
那么 一 次 TLB 缺失 大 概 需 要 花费 13 个 时 钟 周期 (在 5.4.7 节 我 们 将 讨论 MIPS TLB 代码 )。 如 果 
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页 表 项 中 没有 有 效 的 物理 地 址 ， 就 会 发 生 一 次 真 的 缺 页 。 硬 件 保 存 着 被 建议 替换 项 的 索引 ， 而 这 


一 项 则 是 随机 选取 的 。 
虚拟 地 址 


TLB 访 问 


否 是 
T = TLB 命 中 ? 
TLB 缺失 异常 Ce > 和 理 地 址 
否 


3? 是 


中 读 取 数据 布 Ce > 
读数 据 时 发 生 是 中 写 数 据 
cache 缺 失 阻塞 cache 命 中 ? 
向 CPU 中 
传送 数据 
读数 据 时 发 生 cache 命 中 ? 是 


往 cache 中 写 数据 ， 更 新 


重 写 位 ， 将 数据 和 相应 的 
地 址 存放 到 写 缓 冲 区 中 





| 5-25 在 内 置 FastMATH 的 TLB 和 cache 中 处 理 读 或 者 写 直达 操作 

如 果 TLB 命中 ， 最 终 的 物理 地 址 就 可 以 用 来 访问 cache。 对 于 读 操作 ， 当 从 存储 器 中 取 数 据 时 ，cache 产生 命 
中 或 缺失 ， 提 供 数据 或 者 引起 阻塞 。 对 于 写 操作 ， 若 命中 ，cache 某 数据 项 中 的 一 部 分 内 容 将 被 重 写 ， 如 果 采 
用 号 直达 策略 还 要 将 数据 送 到 写 缓 冲 区 中 。 写 缺失 和 读 缺 失 相 同 ， 只 是 在 数据 块 从 存储 器 中 读 出 后 会 被 修改 。 
写 回 策略 需要 将 cache 的 重 写 位 置 位 ， 并 且 只 有 当 读 或 写 缺失 时 如 果 被 替换 的 块 处 于 修改 状态 ， 才 将 整 块 写 人 
号 缓冲 。 注 意 ，TLB 命中 和 cache 命中 是 相互 独立 的 事件 ， 但 是 cache 命中 只 可 能 发 生 在 TLB 命中 之 后 ， 这 就 
意味 着 数据 必须 在 主 存 中 。TLB 缺失 和 cache 缺失 之 间 的 联系 将 在 接 下 来 的 例子 和 本 章 最 后 的 习题 中 进一步 
研究 。 


对 于 写 请 求 来 说 ， 有 一 个 额外 的 复杂 情况 ， 必须 检查 TLB 中 的 写 访问 位 。 该 位 可 以 阻止 程 
序 向 它 仅 具有 读 权限 的 页 中 进行 写 操 作 。 如 果 程 序 试图 写 ， 和 且 瑟 访问 位 是 关闭 的 ， 则 会 产生 异 
常 。 写 访问 位 构成 了 保护 机 制 的 一 部 分 ， 我们 将 在 稍 后 讨论 。 
95. 4.5 集成 虚拟 存储 器 、TLB 和 cache 


虚拟 存储 器 和 cache 系统 就 像 一 个 层次 结构 一 样 共同 工作 ， 因此 除非 数据 在 主 存 中 ， 否 则 它 
个 可 能 在 cache 中 出 现 。 操 作 系 统 帮助 管理 该 层次 结构 ， 当 它 决定 将 某 -- 页 移 到 磁盘 上 去 时 ， 就 
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从 cache 中 将 该 页 中 的 内 容 刷 新 。 同 时 ， 操 作 系 统 修改 页 表 和 TLB， 而 后 尝试 访问 该 页 上 的 数据 
都 将 发 生 缺 页 。 

在 最 好 的 情况 下 ， 虚 拟 地 址 由 TLB 进行 转换 ， 然 后 被 送 到 cache， 找 到 相应 的 数据 ， 取 回 并 
送 入 处 理 器 。 在 最 坏 的 情况 下 ， 访 问 在 存储 器 层次 结构 的 TLB、 页 表 和 cache 这 三 个 部 件 中 都 发 
生 缺 失 。 下 面 的 例子 将 详细 介绍 这 些 交 互 作 用 。 
存储 器 层次 结构 的 全 部 操作 

在 类 似 于 图 5-24 的 由 一 个 TLB 和 一 个 cache 组 成 的 存储 器 层次 结构 中 ， 一 次 存储 器 访问 可 能 遭遇 
三 种 不 同类 型 的 缺失 ; TLB 缺失 、 缺 页 以 及 cache 缺失 。 考 虑 这 三 种 缺失 发 生 一 个 或 多 个 时 所 有 可 能 
的 组 合 (7 种 可 能 性 ) 。 对 每 种 可 能 性 ， 说 明 这 种 情况 是 否 会 真 的 发 生 ， 在 什么 条 件 下 发 生 。 

图 5-26 说 明了 所 有 可 能 发 生 的 组 合 以 及 事实 上 它们 是 否 真 的 可 能 发 生 。 





















TLB 页 表 | cache | 可 能 发 生 么 ”如 果 可 能 ， 在 什么 情况 下 发 和 | 
命中 | 命中 | 缺失 | 可能, 但 若 TLB 命 中 就 不 可 能 检查 页 表 | 
缺失 ”| 命中 | 命中 | TIB 缺失 ,但 在 页 表 中 找到 表 项 ; 量 试 后 在 cache 中 找到 数据 
TLB 缺失 ， 但 在 页 表 中 找到 表 项 ， 重 试 后 在 cache 中 未 找到 数据 
缺失 | 缺失 | 缺失 | TLB 缺失 ， 随 后 发 生 缺 页 ， 重 试 后 在 cache 中 必 找 不 到 数据 
| 命中 | 缺失 | 缺失 | 不 可 能 ;如 果 页 林 在 主 存 中 ，TLB 中 没有 此 转换 ”| 
命中 | 缺失 | 命中 | 不 可 能 : 如 果 页 不 在 主 存 中 ,TIB 中 没有 此 转换 | 
缺失 | 缺失 | 命中 | 不 可 能 如 果 页 不 在 主 存 中 ,数据 不 允许 在 cache 中 存在 ”| 





5-26 在 TLB、 虚 拟 存储 器 系统 以 及 cache 中 可 能 发 生 的 事件 组 合 
在 这 些 组 台中 ， 有 三 种 是 不 可 能 的 ， 有 一 种 是 可 能 的 但 是 永远 不 可 能 检测 到 (TLB 命中 ， 虚 拟 存储 器 命中 ，cacbe 缺失 ) ， 

精 解 : 图 5-26 假定 在 访问 cache 之 前 ， 所 有 存储 器 地 址 都 被 转换 成 物理 地 址 。 在 这 样 一 种 结构 中 ， 
cache 是 物理 村 址 (physically indexed) 并 旦 物理 标记 (physically tagged) 的 (所 有 cache 的 索引 和 标记 
都 用 物理 地 址 ， 而 不 是 虚拟 地 址 )。 在 这 样 一 个 系统 中 ， 假 定 cache 命中 ， 那么 访问 主 存 的 时 间 要 包括 对 
TLB 访问 和 cache 访问 的 时 间 ， 当 然 ， 这 些 访问 可 以 流水 地 执行 。 

发 外 ， 处 理 器 可 以 用 一 个 完整 的 或 者 部 分 虚拟 的 地 址 来 索引 cache。 这 称 为 虚拟 寻 址 cachee ， 
它 使 用 虚拟 地 址 作为 标记 ; 因此 这 种 cache 是 虚拟 姓 址 (virtually indexed) 并 且 是 虚拟 标记 (vir- 
tually tagged) 的 。 在 这 种 cache 中 ， 地 址 转换 硬件 (TLB) 在 正常 的 cache 访问 过 程 中 没有 被 用 
到 ， 这 是 因为 使 用 的 是 没有 被 转换 成 物理 地 址 的 虚拟 地 址 来 访问 cache 的 。 这 样 就 把 TLB 排除 在 
关键 路 径 之 外 ， 减 少 了 cache 延 时 。 当 cache 访问 缺失 时 ， 处 理 器 需要 将 该 地 址 转换 成 物理 地 址 
以 便 从 主 存 中 取出 cache 块 。 

当 使 用 虚拟 地 址 访问 cache， 并 且 程 序 之 间 共 享 页 (程序 可 能 使 用 不 同 的 虚拟 地 址 访问 页 ) 
时 ， 就 可 能 有 别名 ?。 当 同 一 个 对 象 有 两 个 名 字 时 就 会 产生 别名 一 一 在 这 种 情况 下 ， 两 个 虚拟 地 
址 对 应 于 同一 个 页 。 这 种 多 义 性 就 产生 一 个 问题 ， 由 于 这 种 页 上 的 一 个 字 可 能 存在 于 cache 中 的 
两 个 不 同位 置 ， 每 个 对 应 用 不 同 的 虚拟 地 址 。 这 就 允许 一 个 程序 写 数 据 ， 而 为 一 个 程序 并 不 知道 
数据 已 经 改变 。 完 全 虚拟 寻 址 的 cache 或 者 对 cache 和 TLB 的 设计 进行 限制 以 减少 别名 ， 或 者 需 
要 操作 系统 也 可 能 是 用 户 来 采取 措施 以 保证 别名 不 会 发 生 。 

这 两 种 设计 观点 常用 的 折 中 方法 是 采用 虚拟 地 址 索引 的 cache 有 时 仅仅 使 用 地 址 的 页 内 
偏 移 部 分 ， 由 于 没有 被 转换 ， 因此 实际 上 是 物理 地 址 一 一 但 使 用 物理 地 址 标记 。 这 些 采 用 虚拟 索 








怠 ” 虚 拟 寻 址 cache (virtually addressed cache) ;一 -种 使 用 虚拟 地 址 而 不 是 物理 地 址 访 问 的 cache 。 
© eee : 使 用 两 个 地 址 访问 同一 个 日 标的 情形 ， 一 般 发 生 在 虚拟 存储 器 中 两 个 虚拟 地 址 对 应 到 同 - -个 物 
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引 [而 物理 标记 的 设计 ， 试 图 同时 拥有 虚拟 地 址 索引 cache 的 优越 性 能 以 及 物理 寻 址 cache- 的 简单 
结构 。 例 如 ， 在 这 种 情况 下 就 没有 别名 的 问题 。 图 5-24 假定 的 页 大 小 为 4KB， 但 实际 上 有 16 
KB， 因 此 内 置 FastMATH 就 使 用 了 这 种 方法 。 要 实现 这 种 方法 ， 必 须 在 最 小 页 大 小 、cache 大 小 
以 及 关联 度 之 间 进 行 灌 慎 的 权衡 。 : 


5.4.6 虚拟 存储 器 中 的 保护 


虚拟 存储 器 最 重要 的 功能 就 是 允许 多 个 进程 共享 一 个 主 存 ， 同 时 为 这 些 进程 和 操作 系统 提 
供 存 储 保护 。 保 护 机 制 必须 确保 ， 尽 管 多 个 进程 在 共享 同一 个 主 存 ， 但 是 无 论 有 意 或 是 无 意 ， 一 
个 恶意 进程 不 能 写 另 一 个 用 户 进程 或 者 操作 系统 的 地 址 空间 。TLB 中 的 写 访问 位 可 以 防止 一 个 页 
被 改写 。 如 果 没 有 这 一 级 保护 ， 计 算 机 病毒 将 更 加 泛滥 。 
硬件 /软件 接口 

为 了 使 操作 系统 能 保护 虚拟 存储 系统 ,硬件 至 少 提供 下 面 总 结 的 三 种 基本 能 力 。 

1) 支持 至 少 两 种 模式 ， 并 指出 当前 运行 的 进程 是 用 户 进程 还 是 操作 系统 进程 ， 模 作 系统 进 
程 也 称 为 超级 用 户 管理 进程、 核心 进程 或 者 主管 进程 。 

2) 提供 一 部 分 处 理 器 的 状态 ， 这 部 分 内 容 是 用 户 齐 程 可 读 而 不 可 写 的 。 这 包括 指示 处 理 器 
是 处 于 用 户 态 还 是 管理 态 的 用 户 / 管 理 模 式 位 、 页 表 指 针 以 及 TLB。 操 作 系 统 用 只 能 在 管理 态 下 
可 用 的 特殊 指令 对 它们 进行 写 操 作 。 

3) 提供 能 让 处 理 器 在 用 户 态 和 管理 态 下 相互 切换 的 机 制 。 从 用 户 态 到 管理 态 的 转换 通常 是 
由 系统 调用 “异常 处 理 完 成 的 ， 它 用 特殊 指令 (如 MIPS 指令 集中 的 syscall) 将 控制 权 传 到 管理 
代码 空间 的 指定 位 置 。 和 其 他 异常 处 理 一 样 ， 系 统 调用 处 的 程序 计数 器 中 的 值 被 保存 在 异常 程 
序 计 数 器 中 〈(EPC) ， 处 理 器 被 置 于 管理 态 。 从 异常 中 返回 至 用 户 模式 ， 使 用 异常 返回 《retum 
from exception) 指令 ,将 重 轩 用 户 模 式 ， 并 和 且 跳 转 到 EPC 中 的 地 址 处 。 

通过 使 用 这 些 机 制 并 且 把 页 表 保 存在 操作 系统 的 地 址 空间 中 ， 操 作 系 统 可 以 更 改 页 表 ， 并 
且 阻 止 用 户 进 程 改 变 它 们 ， 确 保 用 户 进程 只 能 访问 由 操作 系统 提供 给 它 的 存储 部 分 。 

我 们 同样 要 防止 一 个 进程 读 取 另 一 个 进程 的 数据 。 例 如 ， 当成 绩 放 在 处 理 器 的 主 存 中 ， 我 们 
不 希望 学 生 程序 读 到 它们 。 一 旦 我 们 开始 共享 主 存 ， 必须 赋予 进程 保护 数据 防止 被 其 他 进程 读 
或 写 的 能 力 ; 否则 ， 共 享 主 存 将 变 得 乱七八糟。 

每 个 进程 有 它 自己 的 虚拟 地 址 空间 。 因 此 ， 如 果 操 作 系统 管理 页 表 的 组 织 ， 使 独立 的 虚拟 页 
映射 到 不 相交 的 物理 页 上 ， 就 能 使 得 一 个 进程 无 法 访问 另 一 个 进程 的 数据 了 。 当然 ， 这 也 要 求 一 
个 用 户 进 程 不 能 改变 页 表 的 映射 。 如 果 操 作 系统 能 防止 用 户 进程 更 改 自 己 的 页 表 ， 那 么 安全 性 
也 就 有 了 保证 。 然 而 ， 这 样 一 来 ， 操 作 系统 必须 负责 修改 页 表 。 将 页 表 放 在 操作 系统 的 保护 地 址 
空间 就 能 满足 所 有 要 求 。 

当 进 程 希望 以 受 限 的 方式 共享 信息 时 ， 操作 系统 必须 协助 它们 ， 这 是 因为 访问 另 一 个 进程 
的 信息 需要 改变 访问 进程 的 页 表 。 号 访问 位 可 以 用 来 把 共享 限制 为 只 读 ， 并 日 ， 和 页 表 中 其 他 位 
一 样 ， 该 位 只 能 被 操作 系统 修改 。 为 了 人 允许 另 一 个 进程 ， 设 为 P1， 去 读 属于 进程 P2 的 一 页 ，P2 
吏 要 请 求 操作 系统 在 Pl 地 址 空间 中 为 一 个 虚拟 页 生成 页 表 项 ， 指 向 P2 想 要 共享 的 物理 页 。 如 果 
P2 要 求 ， 操 作 系 统 可 以 使 用 写 保护 位 以 防止 Pl 对 数据 进行 改写 。 由 于 只 有 TLB 缺失 才 会 访问 页 





旺 ” 物 理 寻 址 cache (physically addressed cache) ， 使 用 物理 地 址 寻 址 的 cache。 
后 超级 用 户 管理 模式 (supervisor mode) : 也 称 作 管 态 、 核 心 模式 《kemel mode) 。 运行 操作 系统 进程 的 模式 。 
后 系统 调用 (system call) : 将 控制 权 从 用 户 模式 转换 到 管理 员 模式 的 特殊 指令 ， 触发 进程 中 的 一 个 异常 机 制 。 
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表 ， 任 何 决定 页 的 访问 权限 的 位 不 仅 要 包含 在 页 表 中 ， 还 要 包含 在 TLB 中 。 

精 解 : 当 操 作 系统 决定 从 执行 进程 Pl 切换 到 执行 进程 P2 ( 称 为 上 下 文 切换 ”， 或 者 进程 切换 ) 时 ， 
它 必 须 保 证 P2 不 能 访问 Pl 的 页 表 ， 因 为 那样 不 利于 保护 。 如 果 没 有 TLB ， 只 要 把 页 表 寄 存 器 转 而 指向 P2 
的 页 表 (而 不 是 Pl1 的 ) 就 足够 了 ; 如 果 有 TLB ， 我 们 必须 在 其 中 清除 属于 Pl 的 表 项 一 一 不 仅 是 为 了 保护 
P1 的 数据 ， 而 且 是 为 了 连 使 TLB 装 人 P2 的 表 项 。 如 果 进 程 切换 的 频率 很 高 ， 这 一 举措 的 效率 就 很 低 。 例 
如 ， 在 操作 系统 切换 回 Pl 之 前 ，P2 可 能 只 装 人 了 很 少 的 TLB 表 项 。 遗 鳄 的 是 ，P1 随后 发 现 它 所 有 的 表 项 
都 不 见 了 ， 因 此 不 得 不 通过 TLB 缺失 来 重新 加 载 这 些 表 项 。 产 生 这 个 问题 是 因为 PE 和 P2 使 用 同一 个 虚拟 
地 址 空间 ， 并 且 我 们 必须 清除 TLB 以 防止 地 址 混淆 。 

通常 男 一 种 方法 则 是 通过 增加 进程 标识 符 (process identifier) 和 任务 标识 符 (task identifier) 
来 扩展 虚拟 地 址 空间 。 为 此 内 置 FastMATH 有 8 位 地 址 空间 标识 域 (ASID) 。 就 是 这 个 域 标识 了 
当前 正在 运行 的 进程 ， 当 进程 切换 时 ， 它 保存 在 由 操作 系统 装 人 的 寄存 器 中 。 进 程 标识 符 与 TLB 
的 标记 部 分 相连 接 ， 因 此 只 有 在 页 号 和 进程 标识 符 同时 匹配 时 ，TILB 才 会 发 生命 中 。 这 样 的 话 ， 
除非 特殊 情况 ， 否 则 我 们 就 不 需要 清除 TLB。 

同样 的 问题 可 能 在 cache 中 发 生 ? 由 于 在 进程 切换 的 时 候 ， cache 包含 正在 执行 的 进程 的 数 
据 。 对 物理 寻 址 和 虚拟 地 址 寻 址 的 cache 来 说 ， 这 些 问 题 以 不 同方 式 产 生 ， 并 且 有 不 同 的 解决 方 
法 ， 比 如 使 用 进程 标识 符 来 确保 一 个 进程 只 能 获得 它 自己 的 数据 。 


5. 4.7 处 理 TLB 和 缺失 和 缺 页 


尽管 当 TLB 命中 时 ， 利 用 TLB 将 虚拟 地 址 转换 成 物理 地 址 是 很 简单 的 ， 但 是 处 理 TLB 缺失 
和 缺 页 要 复杂 得 多 。 当 TLB 中 没有 一 个 表 项 能 匹配 虚拟 地 址 时 ，TLB 缺失 就 会 发 生 。TLB 缺失 有 
下 面 两 种 可 能 性 之 一 : 

1) 页 在 主 存 中 ， 只 需要 创建 缺失 的 TLB 表 项 。 

2) 页 不 在 主 存 中 ,需要 将 控制 权 交 给 操作 系统 来 解决 缺 页 。 

宕 人 么 知道 这 两 种 情况 中 的 哪 一 种 发 生 了 呢 ? 当 我 们 处 理 缺 失 时 ， 需 要 查找 页 表 项 并 且 取 回 
TILB。 如 果 严 配 的 页 表 项 的 有 效 位 是 关闭 的 ， 那 么 对 应 的 页 就 不 在 主 存 中 ， 发 生 缺 页 ， 而 不 仅仅 
是 TLB 缺失 。 如 果 有 效 位 开启 ， 只 需 取 回 所 需 的 表 项 。 

TLB 缺失 可 以 由 软件 处 理 ， 也 可 以 由 硬件 处 理 ， 这 是 因为 只 需要 短 短 几 步 操作 就 能 将 一 个 有 
效 的 页 表 项 从 存储 器 中 复制 到 TLB 中 。MIPS 通常 采用 软件 来 处 理 TLB 缺失 。 它 从 主 存 中 取出 页 
表 项 装 人 TLB， 然 后 重新 执行 引起 TLB 缺失 的 那 条 指令 ， 这 时 就 会 得 到 TLB 命中 。 如 果 页 表 项 
指出 该 页 不 在 主 存 中 ， 此 时 就 会 发 生 缺 页 异常 。 

处 理 TLB 缺失 或 者 缺 页 需要 使 用 异常 机 制 来 中 断 活路 的 进程 ， 将 控制 权 传 给 操作 系统 ， 然 
后 恢复 执行 被 中 断 的 进程 。 缺 页 将 在 主 存 访问 时 钟 周期 的 某 一 时 刻 被 发 现 。 为 了 在 缺 页 处 理 完 
毕 后 重新 启动 引起 缺 页 的 指令 ， 必 须 保 存 该 指令 的 程序 计数 器 中 的 值 。 正 如 第 4 章 所 述 ， 异 党 程 
序 计数 器 (exception program counter，EPC ) 用 来 保存 这 个 值 。 

为 外 ，TLB 缺失 或 者 缺 页 异常 必须 在 访 存 发 生 的 同一 个 时 钟 周期 的 末尾 被 判定 ， 因 此 下 
一 个 时 钟 周期 就 开始 进行 异常 处 理 而 不 是 继续 正常 的 指令 执行 。 如 果 在 这 个 时 钟 周期 没有 肠 
定 缺 页 发 生 ， 一 条 load 指令 可 能 改写 寄存 器 ， 而 当 我 们 试图 重新 启动 指令 时 ， 这 可 能 是 灾难 
性 的 错误 。 例 如 ， 考 虑 指令 lw 8 1,0 (8$ 1 ) :计算 机 必须 防止 写 流水 级 发 生 ， 否 则 ， 就 不 能 
重新 启动 指令 ， 因 为 $ 1 的 内 容 将 被 破坏 。Store 指令 也 会 发 生 类 似 复杂 情况 。 当 发 生 缺 页 而 





虽 ”上下文 切换 (context switeh ) : 为 允许 另 一 个 不 同 的 进程 使 用 处 理 器 ， 改 变 处 理 器 内 部 的 状态 ， 并 保 ! 
返回 时 需要 的 状态 。 人 
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没有 完成 处 理 时 ， 我们 必须 阻止 写 主 存 的 操作 ; 这 通常 是 通过 令 到 主 存 写 控制 线 为 无 效 来 


完成 。 





在 操作 系统 开始 进行 异常 处 理 和 保存 处 理 器 所 有 状态 位 的 时 候 ， 操 作 系 统 特别 脆弱 。 例 如 ， 
如 果 在 操作 系统 中 正在 处 理 第 一 个 异常 时 ， 另 一 个 异常 又 发 生 了 ， 控 制 单元 将 重 写 异 常 程序 计 
数 器 ， 就 不 能 返回 引起 缺 页 的 那 条 指令 。 我 们 可 以 通过 提供 禁止 异常 (disable exception) 和 使 能 
异常 "来 避免 这 种 错误 的 发 生 。 当 异常 第 一 次 发 生 时 ， 处 理 器 设置 一 个 位 ， 禁 止 其 他 异常 的 发 
生 ; 这 可 以 与 处 理 响 设置 管理 态 位 同时 进行 。 随 后 操作 系统 保存 足够 的 状态 ， 如 果 有 男 一 个 异常 
发 生 一 一 异常 程序 计数 器 (EPC) 和 蜡 常 引发 寄存 器 也 能 正确 恢复 。 异 常 程 序 计数 器 和 异常 引发 
寄存 器 是 协助 处 理 异 常 、TLB 缺失 以 及 缺 页 的 两 个 特殊 控制 害 存 甘 ; 图 5-27 列 出 了 其 他 的 寄存 
器 。 而 后 操作 系统 可 以 重新 允许 异常 发 生 。 这 些 步骤 保证 了 异常 不 会 使 处 理 器 丢失 任何 状态 ， 因 
此 也 就 不 会 出 现 无 法 重新 执行 中 断 指令 的 情况 。 


”CB 寄存 器 号 








加 说 明 
EPC 


5-27 MIPS 控制 寄存 器 
这 些 寄 存 器 被 视 为 位 于 协 处 理 器 0 中 ， 因 此 读 时 使 用 mfc0， 写 时 使 用 mtc0。 


一 且 操 作 系统 知道 了 引起 缺 页 的 虚拟 地 址 ， 它 必须 完成 以 下 三 个 步骤 ; 

1) 使 用 虚拟 地 址 查找 页 表 项 ， 并 在 磁盘 上 找到 被 访问 的 页 的 位 置 。 

2) 选择 蔡 换 一 个 物理 页 ; 如 果 被 选中 的 页 被 修改 过 ， 需 要 在 把 新 的 虚拟 页 装 人 之 前 将 这 个 
物理 页 写 回 到 磁盘 上 。 

3) 局 动 读 操作 ， 将 被 访问 的 页 从 磁盘 上 取 同 到 所 选择 的 物理 页 的 位 置 上 。 

当然 ， 最 后 一 个 步骤 将 花费 数 百 万 个 时 钟 周期 (如果 被 蔡 换 的 页 被 重 写 过 ， 那 么 第 二 步 也 需要 花 
费 这 么 多 时 间 ); 因此 ， 操 作 系统 通常 都 会 选择 另 一 个 进程 在 处 理 器 上 执行 直到 磁盘 访问 结束 。 由 于 操 
作 系统 已 经 保存 了 当前 进程 的 状态 ， 因 此 它 可 以 很 随意 地 将 控制 权 交 给 另 一 个 进程 。 

当 从 磁盘 读 页 的 操作 完成 后 ， 操 作 系统 可 以 恢复 原先 引起 缺 页 的 进程 状态 ， 并 且 执 行 从 蜡 
背 返 回 的 指令 。 该 指令 将 处 理 器 从 核心 态 恢复 到 用 户 态 ， 同 样 也 恢复 程序 计数 器 的 值 。 用 户 进程 
接着 重新 执行 引发 缺 页 的 那 条 指令 ， 成 功 地 访问 请 求 的 页 ， 然 后 继续 执行 。 

数据 访问 引起 的 缺 页 异常 很 难处 理 ， 这 是 由 于 以 下 三 个 特性 ， 

1) 它们 发 生 于 指令 中 间 ， 不 同 于 指令 缺 页 。 

2) 在 异常 处 理 前 指令 没有 结束 。 

3) 寞 常 处 理 之 后 ， 指 令 必须 重新 执行 ， 就 好 像 什么 部 没 发 生 过 一 样 。 


中 使 能 异常 ，(exception enable) :也 称 为 中 断 使 能 (interrupt enable) ， 用 于 控制 处 理 器 是 否 响应 异常 的 信号 或 动 
作 ; 在 处 理 器 安全 地 保存 重启 所 需 信息 之 前 ， 必 须 阻止 异常 的 发 生 。 
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”要 使 指令 可 重新 启动 ， 这 样 异 常 可 以 被 处 理 ， 指 令 稍 后 也 能 继续 执行 ， 这 在 类 似 于 MIPS 的 
结构 中 实现 相对 简单 。 因 为 每 条 指令 只 能 写 一 个 数据 项 并 且 只 能 在 指令 周期 的 最 后 进行 写 操作 ,我 
们 就 可 以 阻止 指令 的 完成 〈 不 执行 写 操 作 ) 并 且 在 开始 处 重新 启动 指令 。 

我 们 再 来 看 MIPS 的 一 些 细节 。 当 TLB 发 生 缺 失 时 ，MIPS 的 硬件 将 被 引用 的 页 号 保存 在 一 
个 叫 Badvaddr 的 特殊 寄存 器 里 ， 然 后 产生 异常 。 
这 个 异常 请 求 操作 系统 通过 软件 来 处 理 缺 失 。 控 制 权 被 传 到 地 址 80 000 000,。 ，TLB 缺失 处 
理 程序 ”的 位 置 。 为 了 找到 缺失 页 的 物理 地 址 ，TLB 缺失 处 理 程序 使 用 虚拟 地 址 的 页 号 ， 以 及 指 
向 活动 进程 页 表 起 始 地 址 的 页 表 寄 存 器 来 检索 页 表 。 为 了 能 快速 地 检索 ，MIPS 将 所 需 的 一 切 信 
息 都 放 在 特殊 的 现场 寄存 器 (Context) 中 : 高 12 位 是 页 表 的 基准 地 址 ， 接 下 来 的 18 位 是 缺失 
页 的 虚拟 地 址 。 每 个 页 表 项 是 1 个 字 ， 因 此 最 后 两 位 为 0。 因 此 ， 头 两 条 指令 将 现场 寄存 器 中 的 
内 容 复制 到 内 核 临时 寄存 器 $k1 中 ， 然 后 根据 其 中 的 地 址 将 页 表 项 装 人 人 $kl 。 回 想 $k0 和 $kl 
是 为 操作 系统 保留 的 不 做 保存 的 寄存 器 ; 这 样 做 的 主要 原因 是 使 得 TLB 缺失 处 理 程 序 执行 得 更 
快 。 下 面 是 典型 的 TLB 缺失 处 理 程序 的 MIPS 代码 ， 
TLBmiSS: 
mcf0 $k1, Context # copy address of PTE into temp $ kl 
lw $k1, 0($k1) # put PTE into temp $ kl 
mtcO $kl, EntryLo # put PTE into special register EntryLo 
tlbwr # put EntryLo into TLB entry at Random 
eret # return from TLB miss exception 
正如 上 面 所 示 ，MIPS 有 一 组 特殊 的 系统 指令 用 来 更 新 TLB。 指 令 tlbwr 把 控制 寄存 器 Ent- 
ryLo 中 的 内 容 复 制 到 由 控制 寄存 器 Random 所 选择 的 TLB 表 项 中 。Random 实现 随机 蔡 换 ， 所 
以 它 基 本 上 是 一 个 独立 运行 的 计数 器 。TLB 缺失 大 概要 花费 12 个 时 钟 周期 。 
注意 到 TLB 缺失 处 理 程序 并 不 检查 页 表 项 是 否 有 效 。 因 为 发 生 TLB 表 项 缺失 异常 比 缺 页 异 
常 要 频繁 得 多 ， 所 以 操作 系统 对 页 表 中 的 表 项 并 不 做 检查 就 直接 装 入 TLB 并 重新 执行 指令 。 如 
宁 表 项 无 效 ， 另 一 个 不 同 的 异常 就 发 生 ， 操 作 系 统 认为 缺 页 。 这 种 方法 让 频繁 发 生 的 TLB 缺失 
处 理 得 快 一 些 ， 但 是 对 不 频繁 发 生 的 缺 页 处 理 就 会 有 一 些 性 能 损失 。 
一 旦 产生 缺 页 的 进程 被 中 断 ， 控 制 权 就 被 转 到 8000 0180,。， 与 TLB 缺失 处 理 程序 不 相同 的 
地 址 。 这 是 处 理 异 常 的 通用 地 址 ; TLB 缺失 有 一 个 专门 的 入 口 点 是 为 了 减少 TLB 缺失 代价 的 。 
操作 系统 使 用 异常 引发 寄存 器 来 判断 产生 异常 的 原因 。 由 于 是 缺 页 异常 ， 操 作 系 统 知道 需要 进 
一 步 处 理 。 因 此 ,不 同 于 TLB 缺失 ， 它 保存 了 活动 进程 的 全 部 状态 ， 包 括 所 有 的 通用 寄存 器 和 
浮 扣 寄 存 器 、 页 表 地 址 寄存 器 、EPC 和 异常 引发 寄存 器 。 由 于 异常 处 理 程序 不 经 常 使 用 浮 点 寄存 
逢 ,通用 人 口 点 并 没有 保存 它们 ， 而 是 留 给 少数 需要 它们 的 处 理 者 。 
图 5-28 描述 了 异常 处 理 程序 的 MIPS 代码 。 我 们 使 用 MIPS 代码 来 保存 和 恢复 状态 ， 注意 何 
时 允许 和 禁止 异常 ， 但 是 我 们 调用 C 代码 来 处 理 特殊 的 异常 。 
引发 缺失 的 虚拟 地 址 取决 于 当前 缺失 是 指令 缺失 还 是 数据 缺失 。 产 生 缺 失 的 指令 地 址 在 EPC 
中 。 如 果 是 指令 缺 页 ，EPC 中 包含 了 缺失 页 的 虚拟 地 址 ;否则 ， 缺失 页 的 虚拟 地 址 可 以 通过 查看 
指令 (指令 地 址 在 EPC 中 ) ， 找 到 基 址 寄存 器 和 偏 移 量 来 计算 得 到 。 
精 解 : 这 个 简化 版 本 假设 了 堆栈 指针 (sp) 有效 。 为 了 避免 执行 低层 异常 代码 时 发 生 缺 页 的 问题 ， 
MIPS 预 留 了 一 部 分 不 会 产生 缺 页 的 地 址 空间 ， 称 为 非 映 射 的 。 操 作 系统 将 异常 人 口 点 代码 和 蜡 常 堆栈 存 


”可 重启 指令 (restartable instruction ) : 一 种 在 异常 被 处 理 之 后 能 从 异常 中 恢复 而 不 会 影响 指令 的 执行 结果 的 指令 。 
已 ”处 理 程序 (handler) ， 用 于 “处 理 ” 异常 或 中 断 的 软件 程序 的 名 字 。 
号 非 映 射 的 (unmapped) : 地 址 空间 中 的 一 个 部 分 ， 在 这 个 区 域 不 会 导致 缺 页 异常 。 


第 5 章 大 容量 和 高 速度 : 开发 存储 语 层 次 结构 . 321 


放 在 非 映 射 的 内 存 中 。MIPS 硬件 将 虚拟 地 址 8000 00001。 ~ BFFF FFTF 转换 成 物理 地 址 时 ， 虚 拟 地 址 的 高 
位 被 忽略 不 计 ， 即 把 这 些 地 址 放 在 物理 内 存 的 低位 。 因 此 ， 操 作 系 统 就 将 异常 人 口 点 和 异常 堆栈 放置 于 非 


映射 的 主 存 中 。 






保存 状态 
$k1l, $sp, ~ XCPSIZE 
SW $sp, XCT SP ($k1) 
$v0 ,XCT VO ($k1) 

















# 堆 梭 中 用 于 保存 状态 的 空间 
# 将 $sp 保存 到 堆栈 

# 将 $v0 保存 到 堆栈 

4 将 $v1i, $ai, $si, $ti… 保 存 到 堆栈 
# 将 $ra 保存 到 堆栈 
# 复 制 Hi 
. # 槛 制 L0 
# 将 Hi 的 值 保存 到 堆栈 中 
# 糙 Lo 的 值 保存 到 堆栈 中 
# 复 制 引发 寄存 器 

# 将 $cr 寄存 器 的 值 保 存 到 堆栈 中 

# 保 存 $V1 的 值 

# 保 和 仔 状 态 寄 存 器 

# 海 $sr 保存 到 堆栈 

# 尾 sp-XCPSI2E 峰值 给 sp 寄存 器 









SW $rav,XCT RA (Ski) 
保存 hi,1o mfhi $vo 

mf1lo $v1 

Sw $vO, XCT HI( $k1) 
$v1l ,XCT LO( $k1) 
$a0, $cr 
$a0, XCT CR ($k1) 







































mtecn $a3, $sr 
SW $a3,XCT SR( $k1) 
$sp, $k1 






andi $v0, $a3,MASK] 间 串 vw0 = $srgMASK1 ,异常 介 许 
禁 sr 的 值 设置 为 允许 异常 

调用 异 记 处 理 程序 和 
$gp, GPINIT # 设 置 gp, 使 得 它 指 向 堆 区 域 


move $a0, $sp #argl 为 指向 异常 堆栈 的 指针 
] XCPL deliver # 亩 用 c 代码 处 理 异常 












mtc0 $v0O, $sr 


















恢复 状态 






恢复 大 多 数 GPR， move $at, $sp # 寄 存 器 的 临时 值 

以 及 hi、lo 寄存 器 的 值 1w $ra, XCT RR($at) # 从 堆 梭 中 恢复 ra 的 值 
… # 恢 复 t0…al 的 值 
lw $a0, XCT AO ($k1) # 恢 复 ao 的 值 

恢复 状态 寄存 器 rw $vO,XCT SR(Sat) # 从 堆栈 中 读 取 人 旧 的 sr 
1i $v]1 , MASK2 # 使 用 屏 项 来 禁止 异常 
and $vO, $vO, $vl # 设 置 $vD = $sr & MASK2 ,禁止 异常 

$vO, $sr # 设 置 状态 寄存 歼 














mtcD 











$sp, XCT SP{ $at) # 从 堆栈 中 恢复 四 
$v0 ， 
恢复 $sp 的 值 ， 将 剩 下 ， 者 XCT VO ($at) # 从 堆栈 中 恢复 v0 
的 GPR 作为 临时 寄存 器 Vi ,XCT V1 ($at) # 从 堆栈 中 恢复 v1 
lw $k1, XCT EPC ($at)} # 从 堆栈 中 复制 旧 的 epc 值 


1w $at, XCT AT( $at) # 从 堆栈 中 恢复 at 的 值 
恢复 ERC 的 值 ， mtcg $k1, $epc # 恢 复 epc 的 值 
蜡 常 返回 eret $ra # 恢 复 被 中 断 的 指令 
5-28 异常 时 保存 状态 和 恢复 状态 的 MIPS 码 
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精 解 : 图 5-28 中 的 代码 显示 了 MIPS -32 的 异常 返回 序列 。 早 先 的 MIPS -1 架构 采用 rfe 和 并 来 代 
蔡 erIet, 

精 解 : 对 于 有 着 更 为 复杂 指令 的 处 理 咽 来 说 ， 可 能 会 访问 主 存 中 很 多 位 置 并 且 写 很 多 数据 项 ， 这 就 使 
指令 重新 启动 变 得 更 加 困难 。 处 理 一 条 指令 可 能 在 指令 中 间 产 生 多 次 缺 页 。 例 如 ， 双 6 处 理 器 有 能 访问 成 
百 上 千 数 据 宇 的 块 移动 指令 。 在 这 样 的 处 理 器 中 ， 指 令 通 常 无 法 像 在 MIPS 中 那样 从 起 始 位 置 重新 启动 。 
相反 ， 指 令 必 须 被 中 断 ， 稍 后 从 执行 中 间 处 继续 。 在 执行 的 中 间 恢 复 一 条 指令 通常 需要 保存 一 些 特殊 状态 ， 
处 理 寞 常 ， 然 后 恢复 那些 特殊 状态 。 要 正确 地 执行 这 项 工作 需要 在 操作 系统 的 异常 处 理 代 码 和 硬件 中 进行 
细致 而 详细 的 协调 。 


5. 4.8 小 结 


虚拟 存储 器 是 管理 主 存 和 磁盘 之 间 数 据 缓存 的 一 级 存储 层次 。 虚 拟 存 储 器 允许 单个 程序 在 
主人 存 有 限 的 范围 内 扩展 地 址 空间 。 更 重要 的 是 ， 虚 拟 存储 器 以 一 种 保护 的 方式 ， 支 持 多 个 同时 活 
路 的 进程 共享 主 存 。 

管理 主 存 和 磁盘 之 间 的 存储 器 层次 结构 很 具有 挑战 性 ， 这 是 由 于 缺 页 的 代价 很 高 。 下 面 一 
些 技术 被 用 来 降低 缺失 率 : 

1) 增 大 页 的 容量 以 便利 用 空间 局 部 性 并 降低 缺失 率 。 

2) 由 页 表 实 现 的 虚拟 地 址 和 物理 地 址 之 间 的 映射 采用 全 相 联 的 方式 ， 这 样 虚拟 页 就 可 以 被 
放置 到 主 存 中 的 任何 位 置 。 

3) 操作 系统 使 用 类 似 LRU 和 访问 位 之 类 的 技术 来 选择 替换 哪 一 页 。 

写 磁 盘 的 代价 是 很 高 的 ， 因 此 虚拟 存储 器 使 用 写 回 机 制 并 且 追 踪 一 页 是 否 更 改过 (采用 重 
写 位 ) 以 避免 把 没有 变化 的 页 写 回 到 磁盘 。 

虚拟 存储 器 机 制 提供 了 从 被 程序 使 用 的 虚拟 地 址 到 用 来 访问 主 存 的 物理 地 址 空间 之 间 的 转 
换 。 这 个 地 址 转换 允许 对 主 存 进 行 受 保护 的 共享 ， 同 时 还 提供 了 很 多 额外 的 好 处 ， 如 简化 了 存储 
化 分 配 。 为 了 保证 进程 间 受 到 保护 ， 要 求 只 有 操作 系统 才能 改变 地 址 变换 ， 这 是 通过 防止 用 户 程 
序 更 改 页 表 来 实现 的 。 进 程 之 间 受 控制 地 共享 页 可 以 在 操作 系统 的 帮助 下 实现 ， 页 表 中 的 访问 
位 被 用 来 指出 用 户 程序 对 页 进行 读 访 问 还 是 写 访 问 。 

如 果 对 于 每 一 次 访问 ， 处 理 器 不 得 不 访问 主 存 中 的 页 表 来 进行 转换 ， 虚 拟 存 储 器 的 开销 将 
很 大 ，cache 也 将 失去 意义 。 相 反 ， 对 于 页 表 ，TLB 扮演 了 地 址 转换 cache 的 角色 ， 利 用 TLB 中 
的 变换 ， 将 虚拟 地 址 转换 为 物理 地 址 。 

cache 、 虚 拟 存 储 器 以 及 TLB 都 建立 在 一 组 共同 的 原理 和 策略 基础 上 。 下 一 节 讨 论 这 个 共同 
的 架构 。 
理解 程序 性 能 

尽管 虚拟 存储 器 能 使 一 个 小 容量 的 存储 器 看 起 来 像 大 容量 的 存储 器 ， 但 磁盘 和 主 存 之 间 的 
性 能 差异 意味 着 ,如果 一 个 程序 经 常 访问 比 它 拥有 的 物理 存储 器 多 的 虚拟 存储 器 ， 程 序 运 行 速 
度 就 会 很 慢 。 这 样 的 程序 会 不 断 地 在 主 存 和 磁 慢 之 间 交 换 页 面 ， 称 为 拌 动 thrashing) 。 拌 动 的 
发 生 将 会 是 灾难 ， 但 很 少见 。 如 果 你 的 程序 产生 拌 动 ， 那 么 最 简单 的 解决 方式 就 是 在 一 个 有 着 更 
大 主 存 的 计算 机 上 运行 ， 或 者 为 你 的 计算 机 增加 主 存 。 一 个 复杂 的 办 法 是 重新 检查 所 使 用 的 算 
法 和 数据 结构 ， 看 看 能 否 改 变 它 的 局 部 性 ， 从 而 减少 程序 同时 使 用 的 页 数 。 这 一 组 页 通常 被 秘 为 
工作 集 (working set ) 。 

一 个 村 常见 的 性 能 问题 是 TLB 缺失 。 由 于 TLB 同时 只 能 处 理 32 ~ 64 个 页 表 项 ，- 个 程序 很 
容易 会 有 较 高 的 TLB 缺失 率 ， 因 为 处 理 器 只 能 直接 访问 不 到 64 x4 KB =0.25 MB。 例如， 对 于 基 
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数 排序 ，TLE 缺失 通常 是 一 个 挑战 。 为 了 缓解 这 个 问题 ， 现 在 很 多 计算 机 体系 结构 都 支持 可 变 的 
页 大 小 。 例 如 ， 除 了 4 KB 的 标准 页 面 ，MIPS 硬件 还 支持 16 KB、64 KB 、256 KB、1 MB、4 MB、 
16 MB 、64 MB 和 256 MB 大 小 的 页 面 。 因 此 ， 如 果 一 个 程序 使 用 大 容量 的 页 面 ， 就 能 直接 访问 更 
多 主 存 而 不 会 有 TLB 缺失 。 

令 操 作 系统 允许 程序 选择 这 些 大 容量 的 页 面 也 是 一 个 实际 的 难题 。 同 样 ， 减 少 TLB 缺 
失 更 为 复杂 的 方法 是 重新 检查 算法 和 数据 结构 以 减少 页 面 工作 集 ; 另外 ， 由 于 存储 器 访问 
对 于 性 能 以 及 TLB 缺失 频率 至 关 重 要 ， 所 以 一 些 工作 集 较 大 的 程序 已 经 在 这 方面 做 了 重新 
设计 。 


将 左边 的 存储 器 层次 结构 组 成 部 分 与 右边 最 匹配 的 说 明 连 线 ; 

A. 一 级 cache a. cache 的 cache 
B， 二 级 cache hb. 礁 的 cache 
C， 主 存 c. 主 存 的 cache 
D. TLB d， 页 表 项 的 cache 


5.5 存储 器 层次 结构 的 一 般 架构 

到 目前 为 止 , 我 们 已 经 知道 了 不 同类 型 的 存储 层次 结构 共用 的 许多 原理 。 尽 管 存储 器 层次 
结构 中 很 多 方面 都 有 量 的 区 别 , 但 是 决定 层次 结构 如 何 运作 的 许多 策略 和 特征 在 本 质 上 是 相同 
的 。 图 5-29 出 示 了 存储 器 层次 结构 的 一 些 量 的 特征 区 别 。 在 本 节 的 剩余 部 分 ， 我 们 将 讨论 存储 
名 层 次 结构 的 共同 的 运作 方面 以 及 这 些 方面 将 如 何 决 定 它们 的 行为 。 我 们 通过 一 系列 适用 于 存 
储 带 层次 结构 两 层 之 间 的 四 个 问题 来 研究 这 些 策 略 ， 为 了 简单 起 见 ， 我 们 主要 使 用 cache 中 的 
术语 。 










| 





的 全 


i 
: 1 


块 的 总 容 景 250 ~2 000 15 000 ~ 50 000 16 000 ~ 250 000 


和 KB 计量 的 总 | 16-64 500 ~4 000 1 000 000 ~ 1 000 000 000 0.25 ~16 
人 行 ， 


re rT 


缺失 代价 的 时 钟 10 ~25 100 ~ 1 000 10 000 000 ~ 100 000 000 10 ~ 1000 
周期 数 
缺失 率 (二 级 
2 和 ~5% 0.1% ~2% 0.00001% ~0. 0001 0.01% ~2% 
cache 是 全 局 缺失 ) 四 0 | 本 


图 5-29 计算 机 中 存储 器 层次 结构 主要 组 成 部 分 的 关键 定量 设计 参数 
本 图 是 这 些 层次 在 2008 年 的 典型 值 。 值 的 范围 很 大 ， 一 部 分 原因 是 许多 值 是 随 着 时 间 的 变化 而 变化 的 ; 例 
如 ， 当 cache 容量 变 大 以 克服 较 高 的 缺失 代价 时 ， 块 容量 也 随 之 增长 。 


”5.1 问题 1， 一 个 块 可 以 被 放 在 何 处 


我 们 已 经 看 到 ， 可 以 根据 很 多 机 制 将 块 放置 到 存储 器 层次 的 较 高 层 结构 中 ， 从 直接 映射 到 
组 相 联 ， 再 到 全 相 联 。 就 像 前 面 所 提 到 的 ， 这 些 机 制 都 可 以 看 成 是 组 数 和 每 组 块 数 各 不 相同 的 组 
相 联 方案 的 特例 : 
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机 制 名 称 每 组 块 数 


直接 映射 cache m ea 


cache 中 的 抉 数 2 _16 
一 关联 度 关联 魔 . (一 般 为 ) 


cache 中 的 块 数 


增加 关联 度 的 好 处 在 于 它 通常 能 降低 缺失 率 。 缺 失 率 的 改进 来 自 于 减少 竞争 辣 一 位 置 而 产 
生 的 缺失 。 我 们 稍 后 将 详细 讨论 。 首 先 来 看 能 获得 多 少 性 能 改进 。 图 5-30 显示 了 不 同 的 cache 容 
量 ， 在 关联 度 从 直接 映射 到 八路 组 相 联 之 间 变 化 的 缺失 率 。 最 大 的 改进 出 现在 直接 映射 变化 到 
两 路 组 相 联 ， 缺 失 率 下 降 了 20% ~30% 。 当 cache 容量 增加 时 ， 关 联 度 的 提高 对 性 能 改进 作用 很 
小 ; 这 是 因为 大 容量 cache 的 总 的 缺失 率 很 低 ， 从 而 改进 缺失 率 的 机 会 减少 ， 并 且 由 关联 度 引 起 
的 缺失 率 的 绝对 改进 明显 减少 。 如 前 所 述 ， 关 联 度 增加 的 潜在 缺点 是 增加 了 代价 以 及 访问 时 间 。 


15% 





12% +- 


9% 


缺失 率 
吕 


6% 


3% s 16 KB 





0 





一 路 两 路 四 路 八路 
关联 度 


5-30 ” 当 关 联 度 增加 肝 ，8 种 不 同 容 量 数据 cache 各 自 的 缺失 率 
从 一 路 (直接 映射 ) 到 两 路 组 相 联 变化 时 获 益 明显 ， 进 一 步 增加 关联 度 所 获得 的 好 处 就 小 一 些 了 【〔 例 如， 从 两 路 
到 四 路 提高 了 1% ~10% ， 而 从 一 路 到 两 路 提高 了 20% ~30% ) 。 从 四 路 到 八路 组 相 联 ， 缺 失 率 的 改进 更 小 ， 它 们 反 
而 接近 于 全 相 联 cache 的 缺失 率 。 容 量 小 的 cache 由 于 其 本 身 缺 失 率 较 高 ， 因 此 从 关联 度 所 获得 的 好 处 就 很 明显 。 
5-15 解释 了 这 些 数据 是 如 何 收集 的 。 


5. 5.2 问题 2: 如 何 找 到 一 个 块 


我 们 如 何 选择 一 个 块 的 存放 位 置 取决 于 块 放置 机 制 ， 因 为 它 指明 了 可 能 存放 位 置 的 数量 。 
我 们 可 以 把 这 些 机 制 总 结 如 下 : 





需要 比较 的 次 数 


1 
关联 的 度 








直接 映射 索引 


和 索引 组 ， 查 找 组 中 元 来 
查找 所 有 cache 项 cache 的 容重 
独立 的 查找 表 | 


在 存储 器 层次 结构 中 选择 直接 映射 、 组 相 联 还 是 全 相 联 映射 取决 于 缺失 代价 和 关联 度 实现 
代价 的 权衡 情况 ， 包 括 了 时 间 和 额外 硬件 开销 。 在 片 内 拥有 二 级 cache 允许 实现 更 高 的 关联 度 ， 
这 是 因为 命中 时 间 不 再 关键 ,设计 者 也 不 用 依靠 标准 SRAM 芯片 来 构建 块 。 除非 容量 很 小 ， 否 则 
cache 不 使 用 全 相 联 映射 方式 ， 在 小 容量 cache 中 ， 比较 器 的 开销 并 不 是 压倒 性 的 因素 ， 其 绝对 
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缺失 率 的 改进 才 是 最 明显 的 。 

在 虚拟 存储 器 系统 中 ， 页 表 是 一 个 独立 的 映射 表 ， 它 用 来 索引 存储 器 。 除 了 表 本 身 需 要 占用 存储 
资源 外 ， 使 用 索引 表 还 会 引起 额外 的 存储 器 访问 。 选 择 全 相 联 映射 和 额外 的 页 表 有 以 下 几 个 原因 、 

1) 全 相 联 有 其 优越 性 ， 因 为 缺失 的 代价 非常 高 。 

2) 全 相 联 允许 软件 使 用 复杂 的 替换 策略 以 降低 缺失 率 。 

3) 全 映射 很 容易 被 索引 ， 而 不 需要 额外 的 硬件 ， 也 不 需要 进行 查找 。 

因此 ， 虚 拟人 存储 系统 通常 使 用 全 相 联 映射 。 

组 相 联 映射 通常 用 于 cache 和 TLB， 访 问 时 包括 索引 和 在 小 组 内 查找 。 一 些 系统 使 用 直接 映 
射 的 cache， 这 是 因为 访问 时 间 短 并 且 实 现 简单 。 访 问 时 间 短 是 因为 不 需要 比较 就 能 找到 被 请 求 
的 块 。 这 样 的 设计 选择 取决 于 许多 细节 的 实现 ， 如 cache 是 否 集成 在 片上 ， 实 现 cache 的 技术 以 
及 cache 访问 时 间 对 决定 处 理 器 时 钟 周期 的 重要 性 。 


5. 5.3 问题 3， 当 cache 缺失 时 替换 奋 一 块 


在 相 联 的 cache 中 发 生 缺 失 时 ， 我 们 必须 决定 替换 哪 一 块 。 如 果 是 全 相 联 cache， 所 有 的 块 
都 是 被 蔡 换 的 候选 者 。 如 果 cache 是 组 相 联 的 ,我 们 必须 在 某 一 组 的 块 中 进行 选择 。 当 然 ， 直 接 
映射 的 cache 的 替换 很 简单 ， 因 为 只 有 一 个 可 以 替换 的 候选 者 。 

在 组 相 联 或 者 全 相 联 cache 中 ， 有 两 种 主要 的 替换 策略 .: 

。 随机 法 : 随机 选择 候选 块 ， 可 能 使 用 一 些 硬件 协助 实现 。 例 如 ， 对 于 TLB 缺失 ，MIPS 支 

持 随 机 替换 。 

。 最 近 最 少 使 用 算法 : 被 替换 的 块 是 最 久 没 有 被 使 用 过 的 块 。 

实际 应 用 中 ， 在 关联 度 不 低 (上 典型 的 是 两 路 到 四 路 ) 的 层次 结构 中 实现 LRU 的 代价 太 高 了 ， 
这 是 因为 追踪 使 用 信息 的 代价 很 高 。 尽 管 对 于 四 路 组 相 联 ，LRU 通常 也 是 近似 实现 的 一 一 例如 ， 
跟踪 记录 哪 一 对 块 是 最 近 最 少 使 用 的 (需要 使 用 1 位 )， 然后 跟踪 记录 每 对 块 中 哪 一 块 又 是 最 过 
最 少 使 用 的 (要 求 每 对 使 用 1 位 )。 

对 于 更 高 的 关联 度 ， 或 者 用 近似 的 LRU 算法 ,或 者 采用 随机 替换 策略 。 在 cache 中 ， 和 替换 算 
法 是 由 人 刹 件 实现 的 ， 这 意味 着 算法 应 该 容易 实现 。 随机 替换 算法 用 硬件 很 容易 实现 ， 而 对 于 两 路 
组 相 联 的 cache， 使 用 随机 苦 换 算法 的 缺失 率 要 比 LRU 蔡 护 算法 的 缺失 率 高 1.1 倍 。 随 着 cache 
变 得 更 大 ， 所 有 替换 策略 的 缺失 率 都 下 降 了 ， 绝 对 差别 也 变 小 了 。 事实 上 ， 有 时 候 ， 随 机 替换 算 
法 的 性 能 比 用 硬件 简单 实现 的 近似 LRU 算法 的 性 能 还 要 好 。 

在 虚拟 存储 器 中 ，LRU 的 一 些 形式 都 是 近似 的 ， 因为 当 缺 失 代 价 很 大 时 ， 缺 失 率 即 使 只 有 
微小 的 降低 都 是 很 重要 的 。 通常 提供 引用 位 或 者 其 他 等 价 的 功能 使 操作 系统 更 方便 地 追踪 一 组 
最 近 最 少 使 用 的 项 。 由 于 缺失 的 代价 是 如 此 高 ， 并 且 相 对 来 说 不 经 常 发 生 ， 主 要 用 软件 来 近似 这 
项 信息 的 做 法 是 可 行 的 。 


5.5.4 问题 4， 写 操作 如 何 处 理 


对 任何 存储 器 层次 结构 来 说 ， 一 个 关键 的 问题 是 如 何 处 理 写 操 作 。 我 们 已 经 看 到 了 两 种 基 
本 选项 : ，- 
。 写 直 达 : 信息 被 同时 写 到 cache 的 块 和 存储 器 层次 结构 较 低层 的 块 中 (对 cache 来 说 是 主 
存 ) 。5. 2 节 中 的 cache 使 用 这 个 机 制 。 
”9 写 回 : 信息 仅仅 写 到 cache 中 的 块 。 锌 改写 的 块 只 有 在 它 被 替换 时 才 写 回 到 存储 器 层次 
结构 的 较 低 层 中 。 虚拟 存储 器 系统 通常 采用 写 回 策略 ， 原 因 在 5.4 节 中 讨论 过 。 
写 加 和 写 直 达 策 略 有 其 各 自 的 优点 ， 写 回 的 主要 优点 如 下 ， 
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。 处 理 器 可 以 以 cache 而 不 是 存储 器 能 接收 的 速度 写 单个 的 字 。 

e。 多 次 写 同 一 块 中 的 字 只 需 对 存储 器 层次 结构 较 低 层 进 行 一 次 写 操 作 。 

e 当 块 被 写 回 时 ， 由 于 写 一 整 块 ， 系 统 可 以 充分 利用 高 带宽 传输 。 

写 直达 的 优点 如 下 : 

e 缺失 比较 简单 ， 缺 失 代 价 也 较 小 ， 这 是 因为 不 需要 把 整个 块 写 回 到 较 低 层 存 储 系 统 中 。 

。 尽管 为 了 可 行 性 ， 写 直达 的 cache 需要 一 个 写 缓冲 区 ， 然 而 写 直 达 还 是 比 写 回 更 易于 实现 。 

在 虚拟 存储 器 系统 中 ， 由 于 写 到 存储 表层 次 结构 的 较 低 层 《 磁 盘 ) 的 延迟 很 长 ， 因 此 只 有 
与 回 策略 是 可 行 的 。 尽 管 允许 存储 鹃 的 物理 、 人 逻辑 宽度 更 宽 ， 并 对 DRAM 采用 突 发 模式 ， 然 而 
处 理 器 产生 写 操作 的 速度 通常 还 是 超过 存储 系统 可 以 处 理 它们 的 速度 。 因 此 ， 现 在 最 低 一 级 的 
cache 通常 采用 写 回 策略 。 

cache 、TLB 和 虚拟 存储 器 可 能 一 开始 看 起 来 非常 不 同 ， 但 是 它们 都 基于 相同 的 两 个 定位 原 
理 ， 并 且 可 以 通过 对 4 个 问题 的 各 自 解答 来 理解 。 

问题 1 : 一 个 块 可 以 被 放 在 何 处 ? . 

答 : 一 个 位 置 (直接 映射 )， 一些 位 置 (组 相 联 )， 或 者 是 任何 位 置 (全 相 联 )。 

问题 2， 如 何 找 到 一 个 块 ? 

答 : 有 四 种 方法 : 索引 (在 直接 映射 的 cache 中 ) ， 有 限 的 检索 (在 组 相 联 的 cache 中 ) ， 全 
部 检索 (在 全 相 联 的 cache 中 ) 和 专用 查找 表 (在 页 表 中 )。 

问题 3: 当 cache 缺失 时 替换 哪 一 块 ? 

答 : 通常 是 最 近 最 少 使 用 的 块 或 者 是 随机 选取 的 一 块 。 

问题 4: 与 操作 如 何 处 理 ? 

答 : 层次 结构 中 的 每 一 层 都 可 以 使 用 写 直 达 或 者 写 回 策略 。 


3.5.5 34: 一 种 理解 存储 器 层次 结构 行为 的 直观 模型 


在 这 一 节 中 ， 我 们 来 看 一 个 模型 ， 通 过 它 能 够 很 好 地 洞察 存储 器 层次 结构 中 引起 缺失 的 原 
因 以 及 层次 结构 的 变化 对 缺失 的 影响 。 我 们 从 cache 方面 来 解释 这 个 观点 ， 尽 管 这 个 观点 对 其 他 
层次 也 都 直接 适用 。 在 这 个 模型 中 ， 所 有 的 缺失 被 分 成 下 面 三 类 (3C) 3. 
。 强制 缺失 ”: 对 从 没有 在 cache 中 出 现 的 块 第 一 次 进行 访问 引起 的 缺失 。 也 称 为 冷 启 动 缺 
失 (cold-start misses ) 。 
。 容量 缺失 ”， 由 于 cache 容纳 不 了 一 个 程序 执行 所 需要 的 所 有 块 而 引起 的 cache 缺失 ， 当 
茶 些 块 被 替换 出 去 ， 随 后 再 被 调 人 时 ， 将 发 生 容量 缺失 。 
。 冲突 缺失 ”， 在 组 相 联 或 者 直接 映射 的 cache 中 ， 多 个 块 竞争 同一 个 组 时 而 引起 的 cache 
缺失 。 冲 突 缺 失 在 直接 映射 或 组 相 联 cache 中 存在 ， 而 在 同样 大 小 的 全 相 联 cache 中 不 存在 。 
这 种 cache 缺失 也 称 为 碰撞 缺失 (collision miss ) 。 
图 5-31 显示 了 缺失 率 是 如 何 按照 引起 的 原因 被 分 为 三 种 的 。 改 变 cache 设计 中 的 某 一 方面 就 
能 直接 影响 这 些 缺 失 的 原因 。 冲 突 缺 失 是 因为 争 用 同一 个 cache 块 而 引起 的 ， 因 此 提高 关联 度 就 


3C (three Cs model) : 将 所 有 的 cache 缺失 都 归 为 三 种 类 型 的 cache 模型 ， 三 类 分 别 为 ， 强制 缺失 、 容 最 缺失 和 
冲突 缺失 。 因 其 三 类 名 称 的 英文 单词 首 字母 均 为 e 而 得 名 。 

强制 缺失 (compulsory miss) ， 也 称 为 冷 启 动 缺失 (cold - start miss) 。 对 没有 在 cache 中 出 现 过 的 块 第 一 次 访问 时 
产生 的 缺失 。 

容量 缺失 (capacity miss) ， 由 于 cache 在 全 相 联 时 都 不 可 能 容纳 所 有 请 求 的 块 而 导致 的 缺失 。 

冲突 缺失 〈conflict miss) ; 也 称 为 碰撞 缺失 。 在 组 相 联 或 者 直接 映射 cache 中 ， 很 多 块 为 了 竞争 同一 个 组 导致 的 
缺失 。 这 种 缺失 在 使 用 相同 大 小 的 全 相 联 cache 中 是 不 存在 的 。 


BD 0D Do 
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可 以 减少 冲突 缺失 。 然 而 ， 提 高 关联 度 会 延长 访问 时 间 ， 导 致 整个 性 能 的 降低 。 
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5-31 根据 缺失 原因 缺失 率 被 分 成 三 种 

这 幅 图 显示 了 不 同 容量 cache 的 总 缺失 率 及 其 组 成 部 分 。 数 据 与 图 5-30 出 自 同一 来 源 ， 都 是 由 SPEC2000 整 
型 和 浮 点 基准 程序 测试 得 到 的 。 强 制 缺 失 部 分 只 占 0.006% ， 在 图 中 看 不 出 来 。 下 一 部 分 是 容量 缺失 ， 取 决 于 
cache 的 容量 。 冲 突 缺 失 部 分 既 取 决 于 关联 度 ， 又 取决 于 cache 额 容量 ， 图 中 给 出 了 关联 度 从 一 路 到 八路 的 冲 
突 缺 失 率 。 在 每 种 情况 下 ， 当 关联 度 从 下 一 个 更 高 度 变化 到 标记 地 方 的 关联 度 时 ， 标记 地 方 对 应 缺失 率 的 增 
加 。 例 如 ， 标 有 两 路 的 部 分 说 明 当 cache 关联 度 从 四 路 变化 到 两 路 时 缺失 增加 。 因 此 ， 同 样 大 小 的 直接 映射 
cache 和 全 相 联 cache 的 缺失 率 的 差别 由 标记 着 八路 、 四 路 、 两 路 和 一 路 的 各 部 分 之 和 给 出 。 八 路 和 四 路 之 间 
变化 太 小 ， 以 至 于 在 图 中 很 难看 出 。 


容量 缺失 可 以 简单 地 通过 增 大 cache 容量 来 减少 ; 的 确 ， 多 年 来 二 级 cache 的 容量 总 是 在 不 
断 地 增加 。 当 然 ， 在 增 大 cache 的 同时 ， 我 们 也 必须 注意 访问 时 间 的 增长 ， 这 将 导致 整体 性 能 的 
降低 。 因 此 ， 尽 管 一 级 cache 也 在 增 大 ， 但 是 增 大 地 非常 缓慢 。 

由 于 强制 缺失 是 对 块 的 第 一 次 访问 产生 的 ， 因 此 ， 对 cache 系统 来 说 ， 减 少 强制 缺失 次 数 最 
主要 的 方法 是 增加 块 的 大 小 。 由 于 程序 将 由 较 少 的 cache 块 组 成 ， 因 此 这 就 减少 了 对 程序 每 -- 块 
都 要 访问 一 次 的 情况 下 的 总 的 访问 次 数 。 如 前 所 述 ， 块 容量 增加 太 多 可 能 对 性 能 产生 负 面 影响 ， 
因为 缺失 代价 会 增长 。 

将 缺失 分 成 3C 是 个 有 用 的 定性 模型 。 在 实际 cache 设计 中 , 许多 设计 的 选择 是 相互 影响 的 ， 
改变 cache 的 一 个 特征 通常 会 影响 一 些 缺 失 率 的 组 成 部 分 。 尽 管 有 这 些 缺 点 ，3C 模型 对 于 观察 
cache 设计 的 性 能 来 说 仍 是 一 种 有 效 的 方法 。 

/ 
存储 恬 层 次 结构 设计 所 面临 的 挑战 在 于 : 任何 一 个 改进 缺失 率 的 设计 同 时 也 可 能 对 整体 性 能 产生 
负面 的 影响 ， 如 图 5-32 所 示 。 正 面 与 负面 作用 的 结合 就 使 得 存储 器 层次 结构 的 设计 令 人 关注 ， 

































增加 cache 容量 减少 了 容量 缺失 可 能 增加 访问 时 间 
由 于 减少 了 冲突 缺失 ， 因 此 降低 了 缺失 率 可 能 增加 访问 时 间 











由 于 空间 局 部 性 ， 因 此 对 很 宽 范 围 内 变化 的 块 大 
小 ， 都 能 降低 缺失 率 


增加 缺失 代价 ， 块 太 大 还 会 


PD 
增加 块 的 容量 增加 缺失 家 





图 5-32 存储 器 层次 结构 设计 面临 的 挑战 
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下 面 哪些 表述 (如 果 有 的 话 ) 是 正确 的 ? 

A. 没有 减少 强制 缺失 的 方法 。 

B. 全 相 联 cache 中 没有 冲突 缺失 。 

C. 在 减少 缺失 方面 ， 关 联 度 比 容量 更 为 重要 。 


5.6 虚拟 机 

和 虚拟 存储 器 一 样 ， 虚 拟 机 (Virtual Machine，VM) 的 概念 很 早 就 出 现 了 。 虚 拟 机 最 早出 现 
于 20 世纪 60 年 代 中 期 ， 这 些 年 来 一 直 是 大 型 机 中 的 重要 组 成 部 分 。 尽 管 在 20 世纪 80 年 代 和 90 
年 代 期 间 ， 它 们 大 多 被 单 用 户 计 算 机 领域 所 忽略 ， 但 是 最 近 受 到 人 们 的 关注 ， 这 是 因为 

。 在 现代 计算 机 系统 中 ， 隔 离 和 安全 的 重要 性 在 增长 。 

。 标准 操作 系统 在 安全 性 和 可 靠 性 方面 的 缺陷 。 

s 在 多 个 不 相关 的 用 户 间 共享 一 台 计 算 机 。 

e 在 过 去 10 年 里 ， 处 理 器 速度 大 幅 增长 ， 使 得 虚拟 机 引起 的 开销 降 至 可 接受 的 范围 内 。 

最 广泛 的 虚拟 机 的 定义 包括 所 有 基本 的 仿真 方法 ， 这 些 方法 提供 一 个 标准 的 软件 接口 ， 如 
Java 虚拟 机 。 在 这 一 节 中 ， 我 们 对 虚拟 机 感 兴趣 的 地 方 在 于 ， 在 二 进 制 指令 集 系 统 结构 (JISA ) 
的 层次 上 提供 一 个 完整 的 系统 级 环境 。 尽 管 一 些 虚拟 机 在 本 地 硬件 上 运行 不 同 的 指令 集 系统 结 
构 ， 但 我 们 假设 它们 都 能 匹配 硬件 。 这 样 的 虚拟 机 被 称 为 〈 操 作 ) 系统 虚拟 机 (system virtual 
machine ) ， 如 IBM VM/370、VMware ESX Server 以 及 Xen。 

系统 虚拟 机 让 用 户 党 得 自己 在 使 用 整个 计算 机 ， 包 括 操作 系统 的 副本 。 一 台 运 行 多 个 虚拟 
机 的 计算 机 可 以 支持 多 个 不 同 的 操作 系统 。 在 一 个 传统 的 平台 上 ， 一 个 单独 的 操作 系统 拥有 所 
有 的 硬件 资源 ， 但 是 通过 使 用 虚拟 机 ， 多 个 操作 系统 共享 硬件 资源 。 

支持 虚拟 机 的 软件 被 称 为 虚拟 机 监视 器 (virtual machine monitor，VMM) 或 者 管理 程序 (hy- 
pervisor) ; VMM 是 虚拟 机 技术 的 核心 。 底 层 的 硬件 平台 被 称 为 主机 (host) ， 它 的 资源 被 客户 端 
虚拟 机 共享 。VMM 决定 如 何 将 虚拟 资源 映射 到 物理 资源 : 物理 资源 可 能 是 分 时 共享 、 划 分 甚至 
通过 软件 模拟 的 。VMM 比 传统 的 操作 系统 小 很 多 ; 一 个 VMM 的 隔离 区 可 能 只 需要 10 000 行 
代码 。 

尽管 我 们 所 感 兴趣 的 是 虚拟 机 可 以 提供 保护 功能 ， 但 是 在 商业 意义 上 ， 虚 拟 机 也 提供 了 其 
他 两 个 优势 : 

1) 软件 管理 : 虚拟 机 提供 一 个 可 以 运行 完整 软件 堆 的 抽象 ， 甚 至 包含 像 DOS 这 样 的 旧 操 作 
系统 。 虚 拟 机 典型 的 调度 包括 : 一 些 虚拟 机 运行 旧 的 操作 系统 ， 多 数 虚拟 机 运行 当前 的 操作 系 
统 ， 少 数 虚 拟 机 用 来 测试 下 一 代 操 作 系统 版 本 。 

2) 硬件 管理 : 需要 多 个 服务 器 的 一 个 原因 是 为 了 证 每 个 应 用 程序 运行 在 一 台 单独 的 计算 机 
上 ,并 拥有 与 之 兼容 的 操作 系统 ， 这 样 的 分 隔 能 改善 可 靠 性 。 虚拟 机 人 允许 这 些 独立 的 软件 堆 能 在 
共享 硬件 的 同时 独立 运行 ， 因 此 合并 了 服务 器 的 数量 。 另 一 个 例子 是 ， 一 些 VMM 支持 将 正在 运 
行 的 虚拟 机 移植 到 另 一 台 计算 机 上 ， 这 样 可 以 平衡 负载 或 在 硬件 故障 时 实施 迁移 。 

通常 来 说 ， 处 理 器 虚拟 化 的 开销 取决 于 工作 量 。 用 户 级 处 理 器 限制 型 程序 没有 虚拟 化 开销 ， 
这 是 因为 操作 系统 很 少 被 调用 ， 因 此 所 有 的 程序 都 能 以 本 来 速度 运行 。VO 密集 型 负载 通常 也 是 
操作 系统 密集 型 的 ， 它 们 会 执行 许多 系统 调用 和 特权 指令 ， 从 而 导致 很 高 的 虚拟 化 开销 。 另 一 方 
面 ， 如 果 /0 密集 型 负载 同样 也 是 0 限制 型 的 ， 由 于 在 等 待 /0 时 ， 处 理 器 通常 处 于 空闲 状 
态 ， 因 此 处 理 器 的 虚拟 化 开销 就 完全 能 被 掩藏 。 

开销 取决 于 需要 由 VMM 进行 模拟 的 指令 数目 以 及 模拟 速度 的 快慢 。 因 此 ， 假设 客户 端 虚 所 
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机 和 主机 运行 同样 的 ISA 时 ， 系 统 结构 和 VMM 的 目标 是 尽 可 能 在 本 地 硬件 上 运行 所 有 指令 。 


5. 6. 1 虚拟 机 监视 器 的 必 备 条 件 


虚拟 机 监视 器 需要 做 什么 ? 它 给 客户 软件 提供 了 一 个 软件 接口 ， 分 开 每 个 客户 端的 状态 ， 并 
且 需 要 将 自己 从 客户 端 软 件 中 〈 包 括 客 户 操作 系统 ) 隔离 。 定 性 的 需求 是 : 

。 除了 性 能 相关 的 行为 或 因 多 虚拟 机 共享 而 造成 的 固定 资源 限制 以 外 ， 客 户 软件 在 虚拟 机 

上 的 运行 应 该 和 它 在 本 地 硬件 上 的 运行 完全 相同 。 

。 客户 软件 不 能 直接 改变 实际 系统 中 的 资源 分 配 。 

为 了 “虚拟 化 ”处 理 器 ，VMM 必须 能 控制 一 切 一 一 访问 特权 状态 、 地 址 转换 、1/O、 异 常 
和 中 断 一 一 尽管 客户 虚拟 机 和 当前 运行 的 操作 系统 痢 时 使 用 它们 也 不 受 影响 。 

例如 ， 在 计时 器 中 断 的 情况 下 ，VMM 需要 挂 起 当前 正在 运行 的 客户 虚拟 机 ， 保 存 其 状态 ， 
处 理 中 断 ， 然 后 决定 下 面 该 运行 峙 个 客户 虚拟 机 ， 并 读 取 其 状态 。 依 赖 计时 器 中 断 的 客户 虚拟 机 
会 有 由 VMM 提供 的 一 个 虚拟 计时 器 和 模拟 的 计时 器 中 断 。 

为 了 方便 管理 ，VMM 必须 运行 在 一 个 比 用 户 虚 拟 机 更 高 的 特权 级 别 下 ， 其 中 ， 用 户 虚 拟 机 
通常 运行 在 用 户 模 式 下 ， 这 也 确保 了 任何 特权 指令 的 执行 都 需要 由 VMM 来 处 理 。 和 上 述 的 页 式 
虚拟 存储 器 相似 ， 系 统 级 虚拟 机 的 基本 必 备 条 件 如 下 : 

® 至 少 两 个 处 理 器 模式 ， 系 统 级 和 用 户 级 。 

。 特权 级 指令 集合 只 能 在 系统 模式 下 使 用 ， 如 果 在 用 户 模式 下 执行 将 会 产生 trap 中 断 ， 所 

有 系统 资源 只 能 由 这 些 指 令 控制 。 


5.8.< 指令 集 系 统 结构 (缺乏 ) 对 虚拟 机 的 支持 


如 果 在 ISA 设计 过 程 中 考虑 到 了 虚拟 机 的 使 用 ， 那 么 由 VMM 执行 的 指令 数目 和 模拟 这 些 指 
令 所 花费 的 时 间 会 相对 减少 些 。 允 许 虚拟 机 直接 在 硬件 上 执行 的 系统 结构 被 冠 以 可 虚拟 化 (vir- 
tualizable) 的 名 称 ，IBM 370 就 是 如 此 。 

由 于 虚拟 机 只 是 近期 才 考虑 应 用 于 桌面 系统 和 基于 PC 的 服务 器 ， 大 部 分 指令 集 在 创建 时 都 
没有 考虑 虚拟 化 的 思想 。x86 和 大 部 分 RISC 系统 结构 ， 包 括 ARM 和 MIPS 都 是 如 此 。 

VMM 必须 保证 客户 系统 只 能 和 虚拟 资源 交互 ， 因 此 常规 的 客户 操作 系统 在 VMM 的 顶层 运 
行 用 户 模 式 程序 。 如 果 客 户 操作 系统 试图 通过 特权 指令 访问 或 者 修改 相关 硬件 资源 的 信息 一 一 
例如 ， 读 / 写 一 个 页 表 指 针 一 一 它 会 向 VMM 发 出 trap 中 断 。VMM 会 进行 适当 的 调整 来 对 应 实际 
资源 。 

因此 ， 如 采 任何 指令 试图 在 用 户 模式 下 读 / 写 这 样 敏感 的 信息 trap，VMM 将 截获 它 并 旦 如 客 
户 操作 系统 所 需 的 那样 ， 支 持 敏 感 信息 的 虚拟 版 本 。 

如 果 上 述 条 件 不 具备 ， 那 么 需要 其 他 的 方法 。VMM 必须 使 用 特殊 的 预防 措施 来 定位 所 有 存 
在 问题 的 指令 ， 并 且 确 保 它们 能 被 客户 操作 系统 正确 执行 ， 这 就 增加 了 VMM 的 复杂 度 ， 同 时 也 
降低 了 虚拟 机 的 运行 性 能 。 


3. 6. 3 保护 和 指令 集 系统 结构 


保护 需要 同时 依赖 于 系统 结构 和 操作 系统 ， 但 是 随 着 虚拟 存储 器 的 广泛 使 用 ， 系 统 结构 设 
计 者 需要 对 指令 集 系统 结构 中 一 些 不 方便 使 用 的 细节 进行 修改 。 例 如 ， 为 了 在 卫 M 370 中 支持 虚 
拟 存 储 器 ， 系 统 结构 设计 者 不 得 不 改变 了 仅 发 布 了 6 年 的 IBM 360 指令 集 系统 结构 。 如 今 为 了 适 
应 虚拟 机 ， 也 需要 做 相应 的 调整 。 

例如 ，x86 的 指令 集 POPF 从 存储 器 堆栈 的 顶部 加 载 标记 寄存 器 。 其 中 有 一 个 标记 是 中 断 使 
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能 标记 位 《I 下 ) 。 如 果 在 用 户 模式 下 运行 POPF， 它 只 是 简单 地 改变 除了 下 位 以 外 的 所 有 标记 位 ， 
而 不 是 发 生 trap 中 断 。 如 果 在 系统 模式 下 ， 它 确实 会 改变 下 位 。 但 是 有 一 个 问题 ， 运 行 在 虚拟 
机 用 户 模 式 下 的 客户 操作 系统 希望 看 见 下 位 的 改变 。 

在 过 去 ，IBM 的 大 型 机 硬件 和 VMM 采用 以 下 三 个 步骤 来 改善 虚拟 机 的 性 能 : 

1) 降低 处 理 器 虚拟 化 的 开销 。 

2) 降低 由 虚拟 化 引 馆 的 中 断 开 销 。 

3) 中 断 发 生 时 交 给 相应 的 虚拟 机 ， 而 不 用 调用 VMM， 从 而 降低 中 断 开销 。 

在 2006 年 ，AMD 和 Intel 提出 新 的 计划 尽力 满足 第 一 个 要 点 ， 即 降低 处 理 器 虚拟 化 的 开 
销 。 系 统 结构 和 VMM 需要 经 过 多 少 代 的 改进 才能 完全 满足 上 面 三 点 ? 21 世纪 的 虚拟 机 需要 
经 过 多 长 时 间 才 能 像 20 世纪 70 年 代 的 IBM 大 型 机 和 VMM 一 样 有 效 呢 ? 这 些 都 是 令 人 感 兴趣 
的 研究 。 

精 解 : 除了 虚拟 化 指令 集 ， 另 一 个 难题 是 虚拟 存储 器 的 虚拟 化 ， 令 运行 在 每 个 虚拟 机 上 的 每 个 客户 操 
作 系 统管 理 各 自 的 页 表 。 为 此 ，VMM 将 实际 存储 器 (real memory) 和 物理 存储 器 (physical memory) 的 概 
念 区 分 开 来 (经 常 被 认为 是 同 义 的 ) ， 并 单独 将 实际 存储 器 作为 虚拟 存储 器 和 物理 存储 器 中 间 -- 层 “〈 有 些 
人 使 用 虚拟 存储 器 、 物 理 存 储 器 和 机 器 存储 器 的 概念 来 命名 这 三 层 )。 容 户 操 作 系 统 通过 使 用 页 表 将 虚拟 
存储 器 映射 到 实际 存储 器 ，VMM 页 表 又 将 用 户 的 实际 存储 器 映射 到 物理 存储 器 。 这 种 虚拟 存储 器 系统 结构 
或 者 由 页 表 来 定义 ， 如 IBM VM/370 和 x86; 或 者 由 TLB 结构 定义 ， 如 MIPS。 

VMM 维持 一 个 影子 页 表 ， 以 用 来 将 客户 虚拟 地 址 空间 直接 映射 到 硬件 物理 地 址 空间 ， 这 样 就 不 需要 在 
每 次 间接 访问 存储 器 时 花费 额外 的 开销 。 通 过 检查 对 客户 页 表 的 所 有 修改 ，VMM 可 以 确保 被 硬件 用 作 页 表 
转换 的 影子 页 表 项 和 客户 操作 系统 环境 之 间 的 对 应 关系 ， 除了 用 正确 的 物理 页 代替 客户 页 表 中 实际 页 的 情 
况 。 因 此 ，VMM 必须 中 断 任何 试图 通过 客户 操作 系统 改变 页 表 或 者 访问 页 表 的 指针 。 这 通常 由 写 保护 客户 
页 表 来 实现 ， 并 且 trap 中 断 任 何 通 过 客户 操作 系统 来 访问 页 表 指 针 的 操作 。 如 前 文 所 述 ， 如 果 访 问 页 表 指 
针 是 一 个 特权 操作 ， 那 么 后 面 发 生 的 trap 中 断 是 自然 的 。 

系统 结构 中 最 后 需要 虚拟 化 的 部 分 是 V0。 由 于 附属 于 计算 机 的 VO 数量 增加 ， 并 且 V0 设备 类 型 增 
加 ， 因 此 ， 到 目前 为 止 ， 它 是 系统 虚拟 化 最 难 的 部 分 。 为 一 个 难点 是 在 多 个 虚拟 机 之 间 共 享 一 个 实际 设备 。 
然而 还 有 支持 多 种 设备 驱动 需求 的 问题 ， 特别 是 在 同一 个 呀 拟 机 系统 上 支持 不 同 的 客户 操作 系统 。 虚 拟 机 
可 以 这 样 理解 ， 它 为 每 种 虚拟 机 中 各 种 类 型 的 0 设备 提供 一 个 通用 的 驱动 ， 并 且 将 其 留 给 VMM 以 管理 
实际 的 0。 


9. 7 使 用 有 限 状态 机 来 控制 简单 的 cache 


现在 我 们 可 以 实现 对 cache 的 控制 ， 就 像 我 们 在 第 4 章 中 对 单 周 期 、 流水 线 数据 通路 实现 控 
制 一 样 。 本 节 从 定义 一 个 简单 的 cache 开始 ， 随 后 对 有 限 状 态 机 (finite- state machine，FSM) 进 
行 介绍 。 最 后 介绍 了 这 个 简单 cache 的 控制 器 的 有 限 状 态 机 。CD 中 的 5.9 节 用 一 种 新 的 硬件 描 
述 语 言 更 深入 地 介 绍 了 cache 和 控制 器 。 


5.7.1 一 个 简单 的 cache 


我 们 将 为 一 个 简单 的 cache 设计 控制 器 。cache 的 关键 特征 如 下 : 
。 直接 映射 的 cache。 

。 与 回 机 制 ， 采用 写 分 配 策略 。 

。 块 大 小 为 4 个 字 (16 字 节 或 者 128 位 )。 

® cache 大 小 为 16 KB， 因 此 它 能 容纳 1024 个 块 。 

e 32 位 字 节 地 址 。 

cache 中 每 个 块 包 含 一 个 有 效 位 和 重 写 位 。 
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根据 5.2 节 ， 我 们 可 以 计算 出 cache 的 地 址 域 : 

e cache 索引 位 为 10 位 。 

。 块 内 偏 移 为 4 位 。 

。 标记 位 为 32 - (10+4) =18 位 。 

处 理 器 和 cache 之 间 的 信号 为 

e 1 位 读 / 写 信号 。 

e 1 位 有 效 信 号 ， 指 示 是 否 有 一 个 cache 操作 。 

e 32 位 地 址 。 

。 32 位 数据 (从 处 理 器 到 cache)。 

e 32 位 数据 (从 cache 到 处 理 器 ) 。 

e 1 位 准备 信和 号， 指示 cache 操作 完成 。 

注意 到 这 是 一 个 阻塞 式 cache， 因 此 处 理 器 必须 等 到 cache 处 理 完 请 求 之 后 才能 继续 执行 。 

存储 器 和 cache 之 间 的 接口 与 处 理 器 和 cache 之 间 一 样 有 相同 的 域 ， 除 了 数据 域 这 里 是 128 
位 宽 。 如 今 ， 一 般 的 微 处 理 器 都 有 额外 的 存储 器 位 宽 ， 在 处 理 器 中 可 以 处 理 32 位 或 64 位 的 数 
据 ， 而 DRAM 控制 器 通常 是 128 位 。 为 了 简化 设计 ， 可 以 使 cache 块 匹配 DRAM 的 位 宽 。 下 面 是 
一 些 信和 号 : 

。 1 位 读 / 写 信 号 。 

。 1 位 有 效 信和 号， 指示 是 否 有 一 个 存储 器 操作 。 

。 32 位 地 址 。 

e。 128 位 数据 (从 cache 到 存储 器 ) 。 

。 128 位 数据 (从 存储 器 到 cache ) 。 

。 1 位 准备 信号 ， 指 示 存 储 器 操作 完成 。 

请 注意 ， 到 存储 器 的 接口 并 没有 固定 的 周期 数 。 我 们 假设 当 存储 器 读 或 写 完成 后 ， 存 储 器 控 
制 器 通过 准备 信号 来 通知 cache。 

在 介绍 cache 控制 器 之 前 ， 我 们 需要 回顾 一 下 有 限 状 态 机 ， 它 支持 控制 一 个 花费 多 个 时 钟 周 
期 的 操作 。 


52. 7.2 有 限 状 态 机 


为 了 给 单 周期 的 数据 通路 设计 控制 部 件 ， 我 们 使 用 一 组 真 值 表 ， 根 据 指令 的 分 类 来 指定 控 
制 信号 的 设置 。 对 于 cache， 由 于 操作 可 以 是 一 系列 的 步骤 ， 因 此 控制 更 加 复杂 。 对 cache 的 控 
制 既 要 指定 在 任何 步骤 中 信和 号 的 设置 ， 又 要 依次 指出 下 一 步 的 步骤 、 

最 常见 的 多 步 控 制 方法 基于 有 限 状态 机 S， 通 常 以 图 形 化 表示 。 有 限 状 态 机 由 一 组 状态 以 
及 状态 改变 的 方向 组 成 。 方 向 由 下 一 状态 函数 来 定义 ， 七 将 当前 的 状态 和 输入 映射 到 一 个 新 
的 状态 。 当 我 们 使 用 有 限 状 态 机 控制 时 ， 每 个 状态 还 要 在 当时 的 状态 下 指出 一 组 有 效 的 输出 。 
有 限 状 态 机 的 实现 通常 假定 那些 没有 明确 置 为 有 效 的 输出 是 无 效 的 。 类 似 地 ， 对 数据 通路 的 
正确 执行 需要 将 没有 明确 设置 为 有 效 的 信和 号 设置 成 无 效 状态 ， 而 不 是 对 信号 置 位 采取 不 关心 
的 态度 。 

多 路 选择 控制 略微 有 一 些 不 同 ， 它 们 从 输入 (0 或 1) 中 选择 一 个 。 因 此 ， 在 有 限 状 态 机 

© 有 限 状态 机 (finite-state machine) : 由 一 组 输入 和 输出 ， 以 及 下 一 状态 函数 和 输出 函数 组 成 的 时 序 逻 辑 函数 下 __- 


状态 函数 将 当前 状态 和 当前 输入 映射 为 一 个 新 的 状态 ， 输 出 晒 数 将 当前 状态 和 当前 输入 映射 为 一 组 确定 的 输出 。 
避 下 一 状态 函数 〈next-state function ) : 根据 当前 状态 及 当前 输入 来 确定 有 限 状态 机 下 一 状态 的 组 合 函 数 ， 
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中 ,我 们 总 是 指定 我 们 关心 的 所 有 多 路 选择 控制 的 设置 。 当 我 们 使 用 逻辑 实现 有 限 状 态 机 时 ， 设 
置 为 0 的 控制 可 能 就 是 默认 值 ， 因 此 不 需要 任何 门 电 路 。 一 个 简单 的 有 限 状态 机 的 例子 在 附录 C 
( 见 光盘 ) 中 给 出 ， 如 果 不 熟 悉 有 限 状 态 机 的 概念 ， 在 继续 学 习 之 前 ， 读 者 可 能 需要 花 一 些 时 间 
来 研究 附录 C ( 见 光盘 )。 

一 个 有 限 状态 机 的 实现 包括 : 一 个 保持 当前 状态 的 临时 寄存 器 和 一 个 组 合 逻辑 ， 组 合 逻 辑 
用 来 决定 有 效 的 数据 通路 信号 和 下 一 状态 。 图 5-33 显示 了 可 能 的 实现 效果 图 。 附 录 D ( 见 光 盘 ) 
详细 介绍 了 使 用 这 个 结构 如 何 实现 有 限 状 态 机 。 在 C.3 ( 见 光盘 ) 节 中 ,一 个 有 限 状态 机 的 组 合 
逻辑 由 ROM (read-only memory， 只 读 存 储 器 ) 和 PLA (programmable logic array， 可 编程 逻辑 阵 
列 ) 来 实现 。( 附录 C( 见 光盘 ) 中 对 这 些 逻 辑 单元 也 进行 了 描述 。) 


组 合 控制 逻辑 数据 通路 控制 输出 


TT 


来 自 cacphe 妾 据 
通路 前 输入 





图 5-33 典型 的 有 限 状态 机 控制 器 由 一 个 组 合 逻辑 和 一 个 保存 当前 状态 的 寄存 器 来 实现 
组 合 逻 辑 的 输出 是 下 一 个 状态 号 以 及 当前 状态 的 有 效 控制 信和 号。 组 合 逻辑 的 输入 是 当前 的 状态 以 及 用 来 决 

定 下 一 状态 的 一 些 输入 。 在 这 种 情况 下 ， 连 入 就 是 指令 寄存 器 的 操作 码 位 。 注 意 到 ， 在 本 章 所 使 用 的 有 限 状 

态 机 中 ， 输 出 仅 由 当前 状态 过 决定 ， 而 与 输 人 元 关 。 对 此 ， 精 解 更 详细 地 进行 了 解释 。 

精 解 :本 书 中 的 有 限 状态 机 的 类 型 被 称 作 Moore 型 有 限 状 态 机 ， 以 Edward Moore 来 命名 。 它 的 标识 特 
征 是 输出 仅仅 取决 于 当前 的 状态 。 对 于 Moore 型 有 限 状态 机 ， 标 记 着 组 合 控制 逻辑 的 逻辑 单元 可 以 被 分 成 
两 部 分 : 一 部 分 包括 控制 输出 ， 并 且 仅 有 状态 输入 ; 另 一 部 分 仅 包含 下 一 状态 输出 。 

另 一 种 状态 机 是 Mealy 型 有 限 状 态 机 ? 以 Ceorge Mealy 命名 Mealy 型 有 限 状 态 机 的 输出 
取决 于 输入 和 当前 的 状态 。Moore 型 有 限 状态 机 潜在 的 实现 优势 在 于 速度 和 控制 单元 的 规模 
由 于 在 时 钟 周期 开始 就 需要 控制 输出 ， 而 该 输出 与 输入 无 关 ， 仅 仅 取决 于 当前 的 状态 
有 助 于 速度 的 提升 。 在 附录 C ( 见 光盘 ) 中 ， 用 逻辑 门 实现 了 这 种 有 限 状 态 机 ， 因 和 而 
明显 地 看 出 它 在 规模 上 的 优势 。Moore 型 有 限 状态 机 潜在 的 缺点 是 它 可 能 需要 额外 的 状态 
如 ， 在 两 个 状态 序列 中 仅 有 一 个 状态 不 同 的 情况 下 ，Mealy 状态 机 会 通过 使 用 输出 依赖 输 人 
方法 将 状态 统一 。 
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5.7.3 一 个 简单 的 cache 控制 器 的 有 限 状 态 机 
图 5-34 是 简单 cache 控制 器 的 四 个 状态 。 
cache 命 中 


标识 cache 准备 就 绪 
\、 操作， 还 要 设置 重 


有 效 的 CPU 请 求 










cache 缺 失 ， 并 且 
旧 的 cache 块 被 重 写 过 



























分 配 主 存 准备 就 绪 号 回 
， 将 旧 的 cache 块 
从 主 存 读 取 一 个 写 回 到 主 存 










主 存 没 有 
准备 就 绪 





新 的 cache 块 
区 主 存 设 有 
准备 就 绪 


图 5-34 简单 控制 器 的 4 个 状态 


。 空 用 : 这 个 状态 等 待 从 处 理 器 发 出 有 效 的 读 / 写 请 求 ， 使 得 有 限 状 态 机 转移 到 标记 比较 的 

。 标记 比较 : 如 名 称 所 示 ， 这 个 状态 主要 检测 该 读 / 写 请 求 是 命中 还 是 缺失 。 地 址 的 索引 部 
分 用 来 选择 比较 用 的 标记 。 如 果 它 的 有 效 位 和 地 址 的 标记 部 分 与 标记 位 相 匹 配 ， 发 生命 
中 。 这 时 ， 或 者 从 选中 的 字 中 读 出 数据 ， 或 者 将 数据 写 人 选中 的 字 ， 随 后 cache 准备 信 
号 被 置 位 。 如 果 是 写 操作 ， 还 要 将 重 写 位 置 为 1。 注 意 ， 如 果 是 写 命中 ， 还 要 设置 有 效 
位 和 标记 域 ， 这些 设置 看 起 来 并 不 需要 ， 却 还 是 要 设置 ， 因 为 标记 使 用 单独 的 存储 器 ， 
岩 此 ， 改 变 重 写 位 时 ,我 们 也 需要 改变 有 效 位 和 标记 域 。 如 果 请 求 命中 并 且 cache 块 有 
效 ， 有 限 状 态 机 返回 到 空闲 状态 。 一 次 缺失 首先 要 更 新 cache 标记 ， 随 后 ， 如 果 这 个 位 
置 的 块 的 重 写 位 为 1， 则 转 人 写 回 状态 ; 如 果 重 写 位 为 0， 则 进入 分 配 状态 。 

。 号 回 : 这 个 状态 根据 标记 和 cache 索引 组 合 的 地 址 ， 将 128 位 的 块 写 回 存储 器 。 我 们 继 
续 停留 在 该 状态 等 待 存储 器 返回 准备 信号 。 当 存储 器 写 回 完成 时 ， 有 限 状 态 机 进入 分 配 

” 分 配 ; 新 的 块 从 存储 器 中 取 回 。 我 们 继续 停留 在 该 状态 等 待 从 存储 器 返回 准备 信号 。 当 
仓储 锋 读 操作 完成 时 ， 有 限 状 态 机 转 人 标记 比较 状态 。 尽 管 我 们 可 以 转移 到 一 个 新 的 状 
态 来 完成 操作 ， 而 不 再 使 用 标记 比较 状态 ， 但 是 这 个 操作 中 有 很 多 重复 ， 包 括 当 访问 是 
与 操作 时 更 新 块 中 恰当 的 字 。 
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这 个 简单 的 模型 可 以 很 方便 地 扩展 到 多 个 状态 以 改进 性 能 。 例 如 ， 标 记 比 较 状 态 在 一 个 单 
独 的 时 钟 周期 里 既 要 比较 ， 又 要 读 / 写 cache 数据 。 通 常 ， 比 较 和 cache 访问 被 放 在 分 离 的 状态 
中 ， 以 改进 时 钟 周期 。 另 一 个 优化 是 增加 一 个 写 缓 冲 ， 这 样 我 们 就 可 以 保存 脏 块 ， 然 后 先 读 出 新 
的 块 。 这 样 ， 当 一 个 脏 块 缺失 时 ， 处 理 器 就 不 用 等 待 两 次 存储 器 访问 。 随 后 ，cache 将 从 写 缓冲 
融 中 将 脏 块 写 回 ， 同 时 处 理 器 正在 处 理 被 请 求 的 数据 。 

在 CD 中 的 5.9 节 将 对 有 限 状 态 机 进行 更 深入 的 研究 ， 用 硬件 描述 语言 描述 了 整个 控制 器 ， 
并 显示 了 这 个 简单 cache 的 方 框图 。 


5.8 ”并行 与 存储 器 层次 结构 :， cache 一 致 性 

多 核 多 处 理 器 意味 着 在 单 芯片 上 有 多 个 处 理 器 ， 这 些 处 理 器 可 能 会 共享 一 个 公共 的 物理 地 
址 空间 。cache 共享 数据 带 来 了 一 个 新 的 问题 ， 由 于 两 个 不 同 的 处 理 器 所 保存 的 存储 器 视图 是 通 
过 各 自 的 cache 得 到 的 ， 如 果 没 有 其 他 的 防范 措施 ， 两 个 处 理 器 可 能 分 别 得 到 两 个 不 局 的 值 。 图 
5-35 解释 了 这 个 问题 ， 并 且说 明了 为 什么 两 个 不 同 的 处 理 器 对 存储 器 相同 位 置 进行 操作 会 得 到 
不 同 的 值 。 这 个 问题 通常 称 为 cache 一 致 性 问题 。 


1 
CU A X AI 


图 5-35 ”cache 一 致 性 问题 : 两 个 处 理 器 (A 和 B) 对 同一 个 存储 器 位 置 X 进行 读 写 操作 
我 们 假设 最 初 两 个 cache 中 都 不 包含 该 变量 并 且 X 的 值 为 0。 假 设 是 写 直 达 cache; 如 果 是 写 回 cache 则 会 带 来 额外 
的 更 加 复杂 的 情况 。 当 X 的 值 被 A 改写 后 ，A 的 cache 和 存储 器 中 的 副本 都 做 了 更 新 ， 但 是 了 的 cache 没有 ， 如 果 B 
谈 义 ， 得 到 的 值 为 0。 





一 般 情 况 下， 如 果 在 一 个 存储 器 系统 中 读 下 任何 一 个 数据 项 的 返回 结果 总 是 最 近 写 入 的 值 ， 
那么 可 以 认为 该 存储 器 具有 一 致 性 。 这 个 定义 尽管 看 起 来 是 正确 的 ， 但 仍 很 模糊 而 且 过 于 简单 ， 
实际 情况 复杂 得 多 。 这 个 简单 的 定义 包括 了 存储 器 系统 行为 的 两 个 不 同方 面 ， 它 们 对 于 编写 正 
确 的 共享 存储 程序 是 至 关 重 要 的 。 第 一 个 方面 称 为 一 致 性 (coherence) ， 它 定义 了 读 操作 可 以 返 
间 介 么 样 的 数值 。 第 二 个 方面 称 为 连贯 性 (consistency) ， 它 定义 了 写 人 的 数据 什么 时 候 才能 被 
读 操作 返回 。 

首先 来 看 一 致 人 性。 如 果 一 个 存储 系统 满足 如 下 条 件 ， 那 么 认为 该 存储 系统 是 一 致 的 。 

1) 处 理 器 了 对 位 置 和 X 的 写 操作 后 面 紧 跟着 处 理 器 P 对 X 的 读 操作 ， 并 且 在 这 次 读 操作 和 写 
操作 之 间 没 有 其 他 处 理 器 对 X 进行 写 操作 ， 这 时 读 操作 总 是 返回 P 写 人 的 数值 。 因 此 ， 在 
图 5-35 中 ， 如 果 CPU A 在 时 间 3 之 后 读 X， 它 将 得 到 数值 1。 

2) 在 其 他 处 理 器 对 X 的 写 操作 后 ， 处 理 器 P 对 X 执行 读 操作 ， 这 两 个 操作 之 间 有 足够 的 间 
隐 并 且 没 有 其 他 处 理 器 对 X 进行 写 操作 ， 这 时 ， 读 操作 返回 的 是 写 和 人 的 数值 。 因 此 ， 在 图 5-35 
中 ， 我 们 需要 一 个 机 制 ， 以 便 在 时 间 3，CPU A 向 存储 器 地 址 X 写 人 数据 1 之 后 ，CPU B 的 cache 
中 的 数值 0 被 数值 1 所 替换 。 

3) 对 同一 个 地 址 的 写 操作 是 囊 行 执行 的 serialized) ;也 就 是 说 ， 任 何 两 个 处 理 器 对 同 _ 个 
地 址 的 两 个 写 操作 在 所 有 处 理 器 看 来 都 有 相同 的 顺序 。 例 如 ， 如 果 在 时 间 3 之 后 ，CPU B 又 向 存 
储 器 地 址 X 中 写 人 2， 那 么 处 理 器 绝 不 会 从 该 地 址 中 先 读 出 2 再 读 出 1。 

第 一 个 性 质保 证 了 程序 的 顺序 一 一 即使 在 单 处 理 器 中 也 要 保证 这 个 性 质 。 第 一 个 性 质 定义 
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了 和 存储 器 的 一 致 性 意味 着 什么 如果 一 个 处 理 器 总 是 读 到 旧 的 数值 ， 我 们 就 认为 这 个 存储 器 是 
非 一 致 性 的 。 

写 操作 串 行 化 的 要 求 更 加 细致 ， 但 也 同等 重要 。 假 如 我 们 没有 将 写 操作 串 行 化 ， 处 理 器 
Pl1 与 人 地 址 X 之 后 ， 紧 跟着 处 理 器 P2 也 写 人 地 址 X。 写 操作 串 行 化 保证 了 每 个 处 理 器 都 能 在 
某 个 时 间 看 到 P2 写 和 人 的 结果 。 如 果 没 有 将 写 操 作 串 行 化 ， 就 会 出 现 一 些 处 理 器 先 看 到 P2 写 
人 的 结果 再 看 到 P1 写 人 的 结果 ， 从 而 可 能 保留 了 Pl 写 人 的 数值 。 避 免 这 种 情况 最 简单 的 方 
法 就 是 保证 对 同一 个 地 址 的 写 操作 在 所 有 处 理 器 看 来 具有 相同 的 顺序 ， 这 个 性 质 称 为 写 串 行 


化 〈write serialization ) 。 


5. 8. 1 实现 一 致 性 的 基本 方案 
在 支持 cache 一 致 性 的 多 处 理 器 系统 中 ，cache 提供 共享 数据 的 迁移 (migration) 和 复制 


(replication ) 。 
。 迁移 : 数据 项 可 以 移 人 本 地 cache 并 以 透明 的 方式 使 用 。 迁 移 不 但 减少 了 访问 远程 共享 
数据 项 的 延迟 ， 而 且 减 少 了 对 共享 存储 器 带宽 的 需求 。 
。 复制 : 当 共 学 数据 被 同时 读 取 时 ，cache 在 本 地 对 数据 项 做 了 备份 。 复 制 减少 了 访问 延迟 
和 读 取 共享 数据 时 的 竞争 现象 。 
对 这 种 迁移 和 复制 的 支持 对 于 访问 共享 数据 的 性 能 来 说 是 至 关 重 要 的 ， 因 此 许多 多 处 理 器 
引 和 人 硬 件 协议 来 维护 cache 一 致 性 。 这 个 用 于 维护 多 个 处 理 器 一 致 性 的 协议 称 为 cache 一 致 性 协 
以 (cache coherence protocol) 。 实 现 cache 一 致 性 协议 的 关键 在 于 跟踪 所 有 共享 数据 块 的 状态 。 
最 常用 的 cache 一 致 性 协议 是 监听 (snooping) 协议 。 每 个 含有 物理 存储 器 中 数据 块 副 本 的 
cache 还 要 你 留 该 数据 块 共享 状态 的 副本 ， 但 是 并 不 集中 地 保存 状态 。cache 可 以 通过 一 些 广播 媒 
介 (总 线 或 者 网 络 ) 访问 ， 所 有 的 cache 控制 器 对 媒介 进行 监视 或 者 监听 ， 来 确定 它们 是 否 含有 
总 线 或 者 交换 机 上 请 求 的 数据 块 副本 。 
在 下 一 他 我 们 将 介绍 用 共享 总 线 实 现 基 于 监听 的 cache 一 致 性 方法 ， 任 何 可 以 向 所 有 处 理 器 
三 播 cache 缺失 的 通信 媒介 都 可 以 用 来 实现 基于 监听 的 一 致 性 机 制 。 这 种 向 所 有 cache 广播 的 方 
法 使 得 监听 协议 的 实现 变 得 简单 ， 但 是 也 限制 了 其 可 扩展 性 。 


5. 8.2 ”监听 协议 


实现 一 致 性 的 一 种 方法 是 : 在 处 理 器 写 数据 之 前 ， 保 证 该 处 理 器 能 独 占 地 访问 该 数据 项 。 这 
种 协议 称 为 写 无 效 协议 (write invalidate protocol) ， 因为 它 在 执行 写 操作 的 时 候 令 其 他 副本 无 效 。 
独 记 访问 确保 了 写 操作 执行 时 不 存在 其 他 可 读 或 可 写 的 数据 项 副本 ，cache 中 该 数据 项 的 其 他 所 
有 副本 都 是 无 效 的 。 

图 5-36 给 出 了 一 个 基于 监听 总 线 的 写 无 效 协议 的 例子 ， 其 中 cache 使 用 写 回 机 制 。 为 了 说 明 
这 个 协议 如 何 保 证 一 致 性 ， 我 们 令 写 操作 后 面 紧 跟 着 其 他 处 理 器 执行 读 操作 的 情况 ， 由 于 写 操 
作 需 要 独占 访问 ， 执行 读 操 作 的 处 理 器 中 保存 的 任何 副本 就 要 被 置 无 效 (协议 因此 得 名 )。 因 
此 ， 当 执行 读 操作 时 ， 在 cache 中 发 生 缺 失 ，cache 需要 取 回 新 的 数据 副本 。 对 于 写 操 作 ， 我 们 
要 求 执行 写 操作 的 处 理 器 可 以 独占 访问 ， 以 防止 其 他 处 理 器 同时 执行 写 操作 。 如 果 两 个 处 理 器 
试图 同时 对 同一 个 数据 项 进行 写 操作 ， 它们 中 的 一 个 会 在 竞争 中 获胜 ， 这 网 使 得 另 一 个 处 理 器 
的 副本 被 置 为 无 效 。 竞 争 失败 的 处 理 器 要 完成 写 操作 ， 束 必 须 取得 新 的 数据 副本 ， 这 个 副本 中 已 
经 包含 了 更 新 后 的 数据 。 因 此 ， 这 个 协议 也 强制 了 写 操 作 的 串 行 化 。 
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处 理 器 动作 ， 总 线 动作 。 “CPU A 的 cache 内 容 | CPL B 的 cache 内 容 ”存储 器 中 位 置 X 的 内 容 


图 5-36 以 对 单个 cache 块 X 读 写 的 过 程 为 例 ( 采 用 写 回 机 制 ) ， 说 明 上 监听 总 线 上 执行 无 效 协议 的 过 程 


我 们 假设 最 初 两 个 cache 中 都 没有 X， 而 在 存储 器 中 和 的 值 为 0。CPU 和 X 的 存储 器 内 容 是 处 理 器 和 总 线 动 
作 都 完成 后 的 数值 。 空 格 表 示 没 有 动作 或 者 没有 存放 副本 。 当 B 发 生 第 二 次 缺失 时 ，CPU A 回应 ， 间 时 取消 
来 自 存储 器 的 响应 。 随 后 ，B 的 cache 和 X 的 存储 器 内 容 都 得 到 更 新 。 这 种 当 块 共享 时 对 存储 器 进行 更 新 的 方 
法 简化 了 协议 ， 但 是 可 能 只 有 当 块 被 替换 时 才能 跟踪 所 有 权 并 强制 写 同 。 这 就 需要 引 人 一 个 被 称 为 “所 有 者 ” 
(owner) 的 额外 状态 ， 它 表明 块 可 以 被 共享 ， 但 是 当 块 被 改变 或 是 替换 时 ， 由 所 有 者 处 理 器 负责 更 新 其 他 处 
理 器 和 存储 器 。 


硬件 软件 接口 

一 种 观点 是 : 块 大 小 对 cache 一 致 性 起 着 重要 作用 。 以 对 一 个 cache 监听 为 例 ，cache 的 块 大 
小 为 8 个 字 ， 两 个 处 理 器 可 以 对 块 中 的 一 个 字 进 行 读 / 写 操作 。 多 数 协 议会 在 两 个 处 理 器 之 间 交 
换 整 个 块 ， 因 此 增加 了 所 需要 的 一 致 性 带宽 。 

大 的 块 同样 会 引起 所 谓 的 假 共 享 2， 当 两 个 不 相关 的 共享 变量 存在 相同 的 cache 块 中 时 ， 尽 
管 每 个 处 理 只 访 问 的 是 不 同 的 变量 ， 但 是 在 处 理 器 之 间 还 是 将 整个 块 进行 交换 。 因 此 ， 程 序 员 和 
编译 器 需要 谨慎 放 置 数据 以 避免 发 生 假 共享 。 

精 解 : 尽管 前 面 的 三 个 扁 性 已 经 能 充分 保证 一 致 性 ， 但 是 何 时 能 看 见 写 的 值 ， 这 个 问题 同样 很 重要 。 
让 我 们 来 看 看 为 什么 。 注 意 到 在 图 5-35 中 ， 我 们 不 能 要 求 对 X 的 读 操作 立刻 能 看 见 其 他 处 理 器 对 X 执行 写 
操作 的 值 。 假 设 , 例 如， 一 个 处 理 器 对 X 的 写 操作 稍稍 先 于 另 一 个 处 理 器 对 X 的 读 操作 ， 这 样 就 不 能 保证 
读 操作 返回 的 数值 是 被 写 的 数据 ， 因 为 在 那 一 刻 ， 被 写 的 数据 可 能 甚至 还 没有 离开 处 理 器 。 连 贯 性 模型 详 
细 定 义 了 写 数据 何 时 能 被 读 操作 看 见 。 

我 们 做 下 面 两 个 假设 。 第 一 ， 直 到 所 有 处 理 器 看 见 写 操 作 的 结果 ， 这 个 写 操作 才能 完成 (没有 完成 
时 可 以 允许 下 一 个 写 操作 发 生 ) 。 第 二 ， 处 理 器 不 能 改变 与 存储 器 访问 相关 的 写 操作 的 次 序 。 这 两 个 条 
件 意味 着 : 如 果 处 理 吕 在 写 位 置 X 之 后 再 写 位 置 Y， 那 么 ,任何 处 理 器 在 看 到 YY 的 新 值 时 也 必须 看 见 X 
的 新 值 。 这 些 限 制 条 件 允许 处 理 器 对 读 操作 可 以 重新 排序 ， 但 是 强制 处 理 器 以 程序 执行 的 顺序 完成 写 
操作 。 

精 解 : cache 一 致 性 问题 对 于 多 处 理 器 和 IO ( 见 第 6 章 ) 来 说 ， 尽 管 原因 相同 ， 但 是 却 有 不 同 的 特 
性 ， 从 而 影响 了 解决 方法 。 不 同 于 VO， 多 个 数据 副本 的 情况 很 少 一 一 只 要 有 就 应 该 避免 一 程序 运行 在 
多 个 处 理 器 上 时 ， 通 常 在 一 些 cache 中 都 有 相同 数据 的 副本 。 

精 解 : 除了 分 布地 保存 共享 块 状态 的 监听 式 cache 一 致 性 协议 ， 基 于 目录 的 cache 一 致 性 协议 将 
物理 存储 器 的 共享 块 的 状态 存放 在 一 个 地 点 ， 称 之 为 目录 ( directory) 。 尽 管 基于 目录 的 一 致 性 比 监 听 
式 一 致 性 的 实现 开销 略 高 一 些 ， 但 是 这 种 方法 可 以 减少 cache 之 间 的 通信 ， 并 且 因 此 可 以 扩展 更 多 的 
处 理 器 。 


避 5.9 高 级 内 容 : 实现 cache 控制 器 
本 广内 容 在 CD 中 ， 介 绍 了 如 何 实现 cache 的 控制 ， 就 像 我 们 在 第 4 章 中 实现 对 单 周期 、 流 











提 ” 假 共享 (false sharing) ， 当 两 个 不 相关 的 共享 变量 放 在 相同 的 cache 块 中 时 ， 尽管 每 个 处 理 器 访问 的 是 不 同 的 变 
量 ， 但 是 在 处 理 器 之 间 还 是 将 整个 块 进行 交换 。 
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水 的 数据 通路 的 控制 一 样 。 这 一 节 开 始 介绍 了 有 限 状 态 机 以 及 在 简单 的 数据 cache 中 实现 cache 
控制 器 ， 包 括 用 硬件 描述 语言 来 描述 cache 控制 器 。 随 后 详细 介绍 了 一 个 cache 一 致 性 协议 的 实 


例 以 及 实现 的 难点 。 
5. 10 ”实例 ，AMD Opteron X4 (Barcelona) 和 Intel Nehalem 的 存储 器 层次 结构 


在 这 一 节 ， 我们 将 看 一 下 两 种 现代 微 处 理 器 的 存储 器 层次 结构 : AMD Opteron X4 ( Bar- 
celona ) 处 理 器 和 Intel Nehalem。 图 5-37 所 示 是 Intel Nehalem 的 芯片 照片 ， 而 第 1 章 的 图 1-9 
则 是 AMD Opteron X4 的 芯片 照片 。 在 主 处 理 器 芯片 内 两 者 都 支持 二 级 cache 和 三 级 cache。 
这 种 集成 减少 了 对 较 低级 cache 的 访问 时 间 ， 同 时 减少 了 芯片 的 管 脚 数 ， 因 为 不 需要 连接 片 
外 二 级 cache 的 总 线 了 。 两 款 处 理 器 都 支持 片 内 的 主 存 控制 器 ， 这 减少 了 与 主 存 通信 的 
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5-37 ” 带 元 件 标 签 的 Intel Nehalem 处 理 器 芯片 
这 歌 13,5 mm x 19. 6 mm 的 芯片 有 731 百 万 个 晶体 管 。 它 包含 了 4 个 处 理 器 ， 每 个 处 理 器 都 有 私有 的 32 KB 
的 指令 cache 和 32 KB 的 数据 cache， 以 及 一 个 512 KB 的 二 级 cache。 四 个 核心 共享 一 个 8 MB 的 三 级 cache。 两 
个 128 位 的 存储 器 通道 连接 着 DDR3 DRAM。 每 个 核 还 支持 一 个 两 级 的 TLB。 存 储 器 控制 器 在 片上 ， 因 此 不 像 
Intel Clovertown 那样 有 独立 的 北桥 芯片 。 


5. 10. 1 Nehalem 和 Opteron 的 存储 器 层次 结构 


图 5-38 总 结 了 两 个 处 理 器 的 地 址 大 小 和 TLB。 注 意 到 AMD Opteron X4 (Barcelona) 有 4 
个 TLB， 并 且 虚 拟 地 址 和 物理 地 址 也 不 用 和 字 大 小 匹配 。X4 只 使 用 了 虚拟 地 址 空间 64 位 中 的 
48 位 ，64 位 物理 地 址 空间 中 的 48 位 。Nehalem 有 3 个 TLB， 虚 拟 地 址 是 48 位 ， 物理 地 址 是 
44 位 。 

图 5-39 是 这 两 个 处 理 器 的 cache。X4 中 的 每 个 处 理 器 都 有 64 KB 的 一 级 指令 cache 和 数据 
cache， 以 及 512 KB 的 二 级 cache。 四 个 处 理 器 共享 一 个 2 MB 的 三 级 cache。Nehalem 有 类 似 的 结 
构 ， 每 个 处 理 器 有 32 KB 的 一 级 指令 cache 和 数据 cache， 以 及 512 KB 的 二 级 cache ， 四 个 处 理 器 
共享 一 个 8 MB 的 三 级 cache。 
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每 个 核 都 有 一 个 指令 TLB 和 一 个 数据 TLB 每 个 核 都 有 一 个 一 级 指令 TLB 和 一 个 一 级 数 
TLB 组 织 结构 





















一 级 TLB 都 是 四 路 组 相 联 ，LRU 替换 算法 | 据 TLB 

二 级 TLB 是 四 路 组 相 联 ，LRU 替换 算法 一 级 TLB 都 是 全 相 联 ，LRU 替换 算法 

一 级 指令 TLB 小 页 表 有 128 项 ， 大 页 表 每 每 个 核 有 一 个 二 级 指令 TLB 和 一 个 二 级 数据 TLB 
线程 有 7 项 二 级 TLB 都 是 四 路 组 相 联 ， 循 环 替换 算法 

一 级 数据 TLB 小 页 表 有 人 64 项 ， 大 页 表 有 32 一 级 TLB 均 有 48 项 
项 二 级 TLB 均 有 512 项 

二 级 TLB 有 512 项 硬件 处 理 缺 失 

硬件 处 理 TLB 缺失 













图 5-38 Intel Nehalem 和 AMD Opteron X4 的 地 址 变换 和 TLB 硬件 
字 大 小 确定 了 虚拟 地 址 的 上 限 ,， 但 是 处 理 器 并 不 需要 用 到 所 有 的 位 。 两 个 处 理 器 都 支持 大 页 ， 这 可 以 用 于 
操作 系统 或 者 映射 帧 缓冲 区 。 大 页 机 制 避 免 了 为 映射 一 个 总 是 存在 的 对 象 而 浪费 大 量 的 表 项 。Nehalem 每 个 核 
心 文 持 两 个 硬件 支持 的 线程 (参见 第 7 章 的 7.5 节 )。 : 
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5-39 Intel Nehalem 和 AMD Opteron X4 2356 (Barcelona) 的 一 级 、 二 级 和 三 级 cache 


图 5-40 显示 了 在 Opteron X4 上 运行 SPECint 2006 基准 测试 程序 时 的 CPI、 一 级 cache 和 二 级 
cache 中 每 1000 条 指令 的 缺失 率 ， 以 及 每 1000 条 指令 DRAM 的 访问 次 数 。 注 意 到 CPI 和 cache 缺 
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失 率 紧密 相关 。CPI 和 每 1000 条 指令 的 一 级 cache 缺失 次 数 之 间 的 关联 系数 为 0.97。 尽 管 我 们 没 
有 实际 的 三 级 cache 缺失 ， 但 是 我 们 可 以 通过 对 二 级 cache 缺失 时 减少 的 DRAM 访问 来 推断 三 级 
cache 的 有 效 性 。 少 数 程序 从 2 MB 的 三 级 cache 中 明显 获 益 -一 一 hb264avc、bhmmer 以 及 bzip2 一 一 
但 是 大 部 分 程序 并 未 获 益 。 


| DRAN 访问 /1000 条 指令 





图 5-40 Opteron model X4 2356 (Barcelona】 存储 系统 中 运行 SPECint 2006 时 的 CP1、 
缺失 率 以 及 DRAM 访问 
在 这 款 芯 片上 ， 三 级 cache 缺失 计数 器 并 没有 工作 ， 因 此 我 们 只 能 通过 DRAM 访问 次 数 来 推测 三 级 cache 的 
效能 。 注 意 到 这 个 图 中 的 使 用 系统 和 基准 测试 程序 和 第 1 章 图 1-20 中 的 一 样 。 


5. 10.2 减少 缺失 代价 的 技术 


Nehalem 和 Opteron X4 都 有 其 他 的 优化 措施 来 降低 缺失 代价 。 首 先是 在 缺失 时 先 返回 被 请 求 
的 字 ， 如 5.2.5 节 的 “ 精 解 ”所 描述 的 。 这 两 款 处 理 器 都 允许 在 cache 坝 失 期 间 继 续 执行 访问 数 
据 cache 的 指令 。 这 个 技术 称 为 非 阻塞 cachee ， 经 常 被 设计 者 用 在 乱 序 处 理 器 上 来 隐藏 cache 缺 
失 延 迟 。 它 们 实现 了 无 阻塞 的 两 个 特点 ， 缺 失 命中 《hit under miss ) 允许 在 缺失 期 间 有 其 他 的 
cache 命中 ; 缺失 情况 下 的 缺失 miss under miss) 允许 有 多 个 未 解决 的 cache 缺失 。 这 两 者 中 第 
一 个 致力 于 用 其 他 工作 来 隐藏 一 部 分 缺失 延迟 ， 而 第 二 个 的 目标 在 于 重 毒 两 个 不 同 缺 失 的 延迟 。 

要 重合 多 个 未 解决 缺失 的 大 部 分 缺失 时 间 和 需要 一 个 高 带宽 的 存储 系统 来 并 行 地 处 理 多 个 缺 
失 。 在 台式 计算 机 系统 中 ， 存储 器 只 能 有 限 地 获得 这 项 功能 的 益处 ， 但 是 大 型 服务 器 和 多 处 理 器 
通常 拥有 能 并 行 处 理 不 止 一 个 缺失 的 存储 系统 。 

这 两 款 微 处 理 器 都 预 取 指 令 ， 并 且 采 用 内 峰 的 硬件 预 取 机 制 来 访问 数据 。 它 们 观察 数据 缺 
失 的 模式 ， 并 使 用 该 信息 尝试 在 缺失 发 生前 预测 下 一 个 取 数 的 起 始 地 址 ， 这 种 技术 的 效果 通常 
在 循环 访问 数组 时 最 好 。 

cache 设计 者 面临 的 最 严峻 的 一 个 挑战 是 ， 支 持 像 Nehalem 和 Opteron X4 那样 的 每 个 时 钟 周 
期 可 以 执行 不 止 一 条 存储 器 指令 的 处 理 器 。 两 种 不 同 的 技术 可 以 支持 一 级 cache 中 的 多 个 请 求 。 
cache 可 以 是 多 端口 的 ， 允 许 对 同一 个 cache 块 的 多 个 访问 同时 进行 。 然而 ， 多 端口 cache 通常 很 
所 贵 ， 因 为 多 端口 存储 器 中 的 RAM 单元 要 比 单 端口 中 的 大 得 多 。 另 一 种 方案 则 是 把 cache 分 成 
不 同 的 组 ， 并 人 允许 多 个 互相 独立 的 存 取 操作 对 两 个 不 同 的 组 进行 访问 。 这 种 技术 类 似 于 主 存 的 





名 非 阻 塞 cache 〈 nonblocking cache) : 在 处 理 器 处理 前 面 的 cache 缺 失 时 仍 可 正常 访问 的 cache。 
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交叉 存 取 (参见 图 5-11)。Opteron X4 的 一 级 数据 cache 每 个 时 钟 周期 支持 两 个 128 位 的 读 操 作 ， 
它 有 8 个 组 。 

在 存储 层次 中 ，Nehalem 和 绝 大 多 数 其 他 的 处 理 器 都 遵循 包含 策略 。 这 意味 着 ， 在 较 高 层次 
cache 中 所 有 数据 的 副本 均 可 在 较 低 层次 的 cache 中 找到 。 与 之 相反 ，AMD 处 理 天 在 第 一 、 二 级 
cache 中 ， 遵 循 互 斥 策略 ， 意 味 着 cache 块 仅 能 在 第 一 级 或 第 二 级 cache 中 找到 ， 而 不 是 在 两 者 中 
都 能 找到 。 因 此 ， 由 于 LI1 缺失 而 将 块 从 L2 取 人 Ll 时 ，Ll 中 被 替换 的 块 被 发 回 L2cache。 

这 些 芯 片 的 复杂 存储 器 层次 结构 以 及 芯片 中 很 大 一 部 分 都 用 于 cache 和 TLB 的 事实 说 明 : 为 
了 缩短 处 理 器 周期 时 间 和 存储 器 延迟 之 间 的 距离 ， 设 计 者 付出 了 非常 大 的 努力 。 

精 解 : Opteron X4 中 的 共享 三 级 cache 并 不 总 是 独占 的 。 三 级 cache 中 的 数据 块 可 以 被 多 个 处 理 器 所 共 
享 ， 如 果 没 有 其 他 处 理 器 共享 数据 块 ， 该 数据 块 只 能 被 移出 三 级 cache。 因 此 ， 三 级 cache 协议 知道 某 个 数 
据 块 是 否 被 共享 或 者 只 被 一 个 处 理 器 所 使 用 。 

精 解 : 正如 Opteron X4 不 遵从 常规 的 包容 属性 一 样 ， 它 在 存储 器 层次 结构 的 各 级 之 间 有 一 种 新 的 关系 。 
不 同 于 存储 器 向 二 级 cache 提供 数据 ， 然 后 二 级 cache 再 向 一 级 cache 提供 数据 那样 ， 这 里 的 二 级 cache 只 
保存 那些 从 一 级 cache 中 逐 出 的 数据 。 因 此 ， 这 种 二 级 cache 被 称 为 牺牲 cache (victim cache) ， 因 为 它 只 存 
储 那 些 从 一 级 cache 中 替换 出 来 的 块 〈“victims”) 。 同 样 ， 三 级 cache 是 二 级 cache 的 牺牲 cache， 只 包含 从 
二 级 cache 中 移出 的 块 。 如 果 一 级 cache 缺失 没有 在 二 级 cache 中 得 到 处 理 ， 但 是 在 三 级 cache 中 找到 所 需 
的 数据 ， 那 么 三 级 cache 直接 向 一 级 cache 提供 数据 。 因 此 ， 一 级 cache 缺失 可 以 被 二 级 cache 命中 、 三 级 
cache 命中 或 者 主 存 来 处 理 。 


5. 11 雇 误 和 陷阱 


作为 计算 机 系统 结构 中 的 定量 原则 ， 存 储 层次 结构 似乎 不 易 受 到 废 误 和 陷阱 的 影响 。 但 实 
际 上 却 大 相 径 庭 ， 很 多 人 不 仅 已 经 有 了 很 多 的 廖 误 ， 遭 过 了 陷阱 ， 而 且 其 中 的 一 些 还 导致 了 很 多 
负面 的 结果 。 下 面 以 学 生 在 练习 和 考试 中 经 常 遇 到 的 陷阱 开始 讲解 。 

陷阱 : 在 模拟 cache 的 时 候 ， 忘记 说 明 宇 节 编 址 或 者 cache 块 大 小 。 

当 模 拟 cache 的 时 候 (手动 或 者 通过 计算 机 ) ， 我 们 必须 保证 ， 在 确定 一 个 给 定 的 地 址 被 映 
射 到 哪个 cache 块 中 时 ， 一 定 要 说 明 字 节 编 址 和 多 字 块 的 影响 。 例 如 ， 如 果 我 们 有 一 个 容量 为 32 
字 节 的 直接 映射 的 cache， 块 大 小 为 4 字 节 ， 则 字 节 地 址 36 映射 到 cache 的 块 1， 因 为 字 节 地 址 
36 是 块 地 址 9， 而 (9 mod 8) = 1。 另 一 方面 ， 如 果 地 址 36 是 字 地 址 ,那么 它 就 映射 到 块 
(36 mod 8) =4。 要 保证 清楚 地 说 明基 准 地 址 。 

同样 ， 我 们 必须 说 明 块 的 大 小 。 假 设 我 们 有 一 个 256 字 节 大 小 的 cache， 块 大 小 为 32 字 节 。 
那么 字 节 地 址 300 将 落 人 哪 一 块 中 ? 如 果 我 们 将 地 址 300 划分 成 域 ， 就 能 看 到 答案 . 


31 30 29 ......... 11 10 9 8 7 6 5 4 3 2 1 0 





块 地 址 


字 节 地 址 300 是 块 地 址 


cache 中 的 块 数 是 


块 导 9 对 应 于 cache 块 号 (9 mod 8) =1。 
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许多 人 ， 包括 作者 (在 早期 的 书稿 中 ) 和 那些 起 记 自己 预期 的 地 址 是 字 、 字 节 或 块 号 的 教 
师 们 ， 都 犯 过 这 个 错误 。 当 你 做 练习 时 一 定 要 注意 这 个 易 犯 的 错误 。 

陷阱 : 在 写 程序 或 者 编译 器 生成 代码 时 忽略 了 看 储 系 统 的 行为 。 

这 个 也 可 以 写作 :“ 在 写 代 码 时 ， 程 序 员 可 能 忽略 了 存储 器 层次 结构 ”我 们 可 以 通过 一 个 
使 用 和 矩阵 乘法 完成 图 5-18 中 的 排序 比较 的 例子 来 说 明 这 个 错误 。 | 

下 面 是 第 3 章 中 矩阵 乘法 版 本 的 内 部 循环 代码 : 

for (i =0; i! =500; i =i +1) 

for (j =0; j! =5007 j =j +1) 
for (K=O0;? k! =500; k =k +1) 
x[ijljj =x[i)[j] +y[i][xk) * z[ kJ[j]; 

当 输 入 是 500 x 500 的 双 精 度数 的 和 矩阵 时 ， 上 述 循环 运行 在 一 个 拥有 1 MB 大 小 二 级 cache 的 
MIPS CPU 上 ， 从 CPU 执行 时 间 来 看 ， 其 速度 仅 为 将 循环 次 序 改 为 x，j，i (i 在 最 里 层 ) 时 的 
一 半 ! 唯一 的 区 别 就 是 程序 如 何 访问 存储 器 以 及 对 存储 器 层次 结构 接 下 来 的 影响 。 我 们 使 用 一 
种 称 为 分 块 (blocking) 的 技术 进一步 优化 编译 ， 可 以 使 这 段 代码 的 运行 时 间 再 减少 3/4。 

陷阱 : 对 于 共享 cache， 组 相 联 度 少 于 核 的 数量 或 者 共享 该 cache 的 线程 数 。 

如 有 条 不 特别 注意 ， 一 个 运行 在 2" 个 处 理 器 或 者 线程 上 的 并 行程 序 为 数据 结构 分 配 的 地 址 可 
能 映射 到 共享 二 级 cache 同一 个 组 中 。 如 果 cache 至 少 是 2" 路 组 相 联 ， 那 么 通过 硬件 可 以 隐藏 这 
些 程序 偶尔 发 生 的 冲突 。 如 果 不 是 ， 程 序 员 可 能 要 面 对 明 显 不 可 思议 的 性 能 缺陷 一 一 事实 上 是 
由 于 二 级 cache 冲突 缺失 引起 的 一 一 在 程序 迁移 时 发 生 ， 假 定 从 一 个 16 核 的 机 器 迁移 到 一 个 32 
核 的 机 器 上 ， 并 且 如 果 它 们 都 使 用 16 路 组 相 联 的 二 级 cache。 

陷阱 : 用 存储 器 平均 访问 时 间 来 评估 乱 序 处 理 器 的 存储 器 层次 结构 。 

如 果 处 理 器 在 cache 缺失 时 阻塞 ， 那么 你 可 以 分 别 计算 存储 器 阻塞 时 间 和 处 理 器 执行 时 间 ， 
因此 可 以 使 用 存储 器 平均 访问 时 间 来 独立 地 评估 存储 器 层次 结构 ( 见 5.3 节 第 2 个 例子 )。 

如 有 处 理 器 在 cache 缺失 时 继续 执行 指令 ， 而 且 甚 至 可 能 维持 更 多 的 cache 缺失 ， 那 么 唯一 
可 以 用 来 准确 评估 存储 器 层次 结构 的 办 法 是 模拟 乱 序 处 理 器 和 存储 器 结构 。 

陷阱: 通过 在 未 分 段 地 址 空间 的 顶部 增加 段 来 扩展 地 址 空间 。 

在 20 世纪 70 年 代 ， 许 多 程序 都 变 得 很 大 ， 以 至 于 不 是 所 有 的 代码 和 数据 都 能 仅 用 16 位 地 
址 寻 址 。 于 是 ， 计 算 机 修改 为 32 位 地 址 ， 一 种 方法 是 直接 使 用 未 分 段 的 32 位 地 址 空间 (也 称 为 
平面 地 址 空间 ) ， 另 一 种 方法 是 给 已 经 存在 的 16 位 地 址 再 增加 16 位 长 度 的 段 。 从 市 场 观点 来 看 ， 
增加 程序 员 可 见 的 段 ， 并 且 迫 使 程序 员 和 编译 器 将 程序 划分 成 段 ， 这 样 可 以 解决 寻 址 问题 。 但 渴 
钴 的 是 ， 任 何 时 候 ， 一 种 程序 设计 语言 要 求 的 地 址 大 于 一 个 段 的 范围 就 会 有 麻烦 ， 比 如 说 大 数组 
的 索引 、 无 限制 的 指针 或 者 是 引用 参数 。 此 外 ， 增 加 段 可 以 将 每 个 地 址 变 成 两 个 字 - 个 是 段 
号 ， 必 一 个 是 段 内 偏 移 一 一 这 些 在 使 用 寄存 器 中 地 址 时 就 会 出 现 问题 。 

陷阱 :在 不 为 虚拟 化 设计 的 指令 集 系统 结构 上 实现 虚拟 机 监视 器 。 

在 20 世纪 70 年 代 和 80 年代， 很 多 计算 机 系统 设计 者 并 没有 刻意 去 保证 所 有 读 写 相关 的 硬 
件 资源 指令 都 是 特权 指令 。 这 种 放任 的 态度 导致 了 VMM 在 这 些 系统 结构 上 存在 问题 ， 包 括 x86 
这 里 我 们 就 以 它 为 例 。 

图 5-41 指出 了 虚拟 化 产生 问题 的 18 条 指令 【Robin 和 Irvine，20001 。 其 中 两 大 类 指令 是 : 

。 在 用 户 模式 下 读 控 制 寄存 器 ， 暴 露 了 在 虚拟 机 上 运行 的 guest 操作 系统 ( 如 前 面 提 到 的 

POPF ) 。 


。 检查 分 段 的 系统 结构 所 需 的 保护 ， 但 却 假设 操作 系统 在 最 高 的 特权 级 运行 。 
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。 当 运 行 在 用 户 模式 时 ， 访 问 丝 感 寄存 器 无 须 trap 中 断 ，| ”存储 全 局 描述 符 表 寄 存 器 (SGDT) 
存储 局 部 描述 符 表 寄存 器 (SLDT) 
存储 中 断 描 述 符 表 寄存 器 《SIDT) 
存储 机 器 状态 字 (SMSW) 
标志 人 栈 (PUSHF，PUSHFD) 
标志 出 栈 (POPF，POPFD) 
在 用 户 模式 下 访问 虚拟 存储 机 制 时 ，x86 保护 检查 指令 | ”从 段 岳 述 符 读 取 访问 权限 (LAR， 
效 从 女 描 述 符 读 取 段 的 边界 (1SL) 
如 果 段 描述 符 可 读 ， 进 行 读 校 验 (VERR) 
如 果 段 描述 符 可 写 ， 进 行 写 校 验 《VERW) 
段 寄存 器 出 栈 (POP CS, POP SS，.…) 
段 寄存 器 人 栈 (PUSH CS, PUSH SS，…) 
远 调用 不 同 的 特权 级 (CALL) 
远 返回 至 不 同 的 特权 级 (RET) 
远 胱 转 至 不 同 的 特权 级 〈JMP) 
软 中 断 (INT) 
存储 段 选 择 寄存 器 (STR) 
移 人 /移出 段 寄存 器 (MOVE) 
5-41 ”虚拟 化 产生 问题 的 18 条 x86 指令 的 概述 [Robin 和 Irvine, 2000] 
上 面 一 组 的 前 五 条 指令 允许 程序 在 用 户 模式 下 读 控 制 寄存 器 ， 而 无 须 tap 中 断 ， 例 如 描述 符 表 寄存 器 。 标 
记 出 栈 指令 会 修改 包含 敏感 信息 的 控制 寄存 器 ， 但 在 用 户 模式 下 将 失效 而 无 任何 提示 。x86 体系 结构 中 段 的 保 
护 检查 在 下 面 的 一 组 指令 中 ， 当 读 取 控 制 寄存 器 时 ， 作 为 指令 执行 的 一 部 分 ， 都 会 隐 式 地 检查 特权 级 。 进 行 
检查 时 操作 系统 必须 运行 在 最 高 特权 级 ， 但 是 对 客户 虚拟 机 并 没有 这 样 的 要 求 。 只 有 称 人 眉 寄 存 器 操作 会 斌 
图 修改 控制 状态 ， 但 是 ， 保 护 检 查 同样 会 蛆 止 它 这 么 做 。 
为 了 简化 在 x86 上 实现 VMM，AMD 和 Intel 都 提出 通过 新 的 模式 扩展 系统 结构 。Intel 的 VT-x 
为 虚拟 机 运行 提供 了 一 个 新 的 执行 模式 、 一 个 面向 虚拟 机 状态 的 系统 结构 定义 、 快 速 虚拟 机 切 
换 指 令 ， 以 及 一 大 组 用 来 选择 调 人 VMM 环境 的 参数 。 总 之 ，VT-x 在 x86 中 加 了 11 条 新 指令 。 
AMD 的 Pacifica 做 了 相似 的 改进 。 
另 一 种 方法 通过 修改 硬件 来 对 操作 系统 做 细微 的 修改 以 简化 虚 氢化。 这 种 技术 称 为 泛 应 所 
化 (paravirtualization) ， 例 如 开源 的 虚拟 机 监视 器 Xen 就 是 一 个 很 好 的 例子 。Xen 虚拟 机 监视 器 
提供 给 客户 操作 系统 一 个 抽象 虚拟 机 ， 它 仅仅 使 用 了 供 虚 拟 机 监视 器 运行 的 x86 物理 硬件 中 易于 
虚拟 化 的 一 部 分 。 


5. 12 本 章 小 结 


无 论 最 快 的 计算 机 还 是 最 慢 的 计算 机 中 ， 构 成 主 存 的 原材料 一 DRAM 本 质 是 相同 的 ， 并 且 
是 最 便宜 的 ， 这 使 得 构建 一 个 和 快速 处 理 器 保持 同步 的 存储 系统 变 得 更 加 困难 。 

局 部 性 原理 可 以 用 来 克服 存储 器 访问 的 长 延迟 这 个 策略 的 正确 性 已 经 在 存储 器 层次 结 

构 的 各 级 都 得 到 了 证 明 。 尽管 层次 结构 中 的 各 级 从 量 的 角度 来 看 非常 不 同 ， 但 是 在 它们 的 执行 
过 程 中 都 遵循 相似 的 策略 ， 并 且 利 用 相同 的 局 部 性 原理 。 
， ”多 级 cache 可 以 更 方便 地 使 用 更 多 的 优化 ， 这 有 两 个 原因 。 第 一 ， 较 低级 cache 的 设计 参数 
与 一 级 cache 不 同 。 例 如 ， 由 于 较 低级 cache 的 容量 一 般 很 大 ， 因此 可 能 使 用 更 大 容量 的 块 。 第 
一 ， 较 低 级 cache 并 不 像 一 级 cache 那样 经 常 被 处 理 器 用 到 。 这 让 我 们 考虑 当 较 低级 cache 空闲 时 
让 它 做 一 些 事情 以 预防 将 来 的 缺失 。 

太一 个 趋势 是 寻求 软件 的 帮助 。 使 用 大 量 的 程序 转换 和 硬件 设备 有 效 地 管理 存储 器 层次 结 
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构 是 增强 编译 器 作用 的 主要 焦点 。 现 在 有 两 种 不 同 的 观点 。 一 种 是 重新 组 织 程序 结构 以 增强 它 
的 空间 和 时 间 局 部 性 。 这 种 方法 主要 针对 以 大 数组 为 主要 数据 结构 的 面向 循环 的 程序 ;大 规模 
的 线性 代数 问题 就 是 一 个 典型 的 例子 。 通 过 重新 组 织 访 问 数组 的 循环 增强 了 局 部 性 一 一 也 因此 
改进 了 cache 性 能 。5. 11 市 的 讨论 说 明了 对 循环 结构 即使 只 作 简 单 的 改变 也 会 非常 有 效 。 

还 有 一 种 方法 是 预 取 ”。 在 预 取 机 制 中 ， 一 个 数据 块 在 真正 被 访问 之 前 就 被 取信 cache 中 了 。 
许多 微 处 理 器 使 用 硬件 预 取 尝试 预测 访问 ， 这 对 软件 可 能 比较 困难 。 

第 三 种 方法 是 使 用 优化 存储 器 传输 的 特殊 cache 感知 (cache-aware) 指令 。 例 如 ， 在 第 7 章 
的 7. 10 节 中 ， 微 处 理 器 使 用 了 一 个 优化 设计 : 当 发 生 写 缺失 时 ， 由 于 程序 要 写 整个 块 ， 因 而 并 
不 从 主 存 中 取 回 一 个 块 。 对 于 一 个 内 核 来 说 ， 这 种 优化 明显 减少 了 存储 器 的 传输 。 

我 们 将 在 第 7 章 中 看 到 ， 对 并 行 处 理 器 来 说 ， 存 储 系 统 也 是 一 个 重要 的 设计 问题 。 存 储 器 层 
次 结构 决定 系统 性 能 的 重要 性 在 不 断 增 长 ， 这 也 意味 着 在 未 来 的 几 年 内 ， 这 一 领域 对 设计 者 和 
研究 者 来 说 将 成 为 焦点 。 


从 5. 13 拓展 阅读 

本 节 光 盘 中 的 内 容 描述 了 存储 器 技术 的 概况 ， 从 汞 延迟 线 到 DRAM， 存 储 器 层次 结构 的 发 
明 ， 保护 机 制 以 及 虚拟 机 ， 最 后 以 操作 系统 的 一 个 简单 发 展 历史 作 总 结 ， 包 括 CTSS、MULTICS、 
UNIX、 BSD UNIX、MS-DOS、Windows 和 Linux。 


5. 14 练习 是 
本 章 习 题 由 惠普 公司 的 Jichuan Chang、Jacob Leverich 、Kevin Lim 和 Parthasarathy Ranganathan 
提供 。 


习题 5.1 
在 这 个 练习 中 ， 我 们 研究 适用 于 多 种 应 用 的 存储 器 层次 结构 ， 应 用 在 下 表 中 列 出 : 
a. 网 络 浏览 
b. 在 线 银 行 


5.1.1 [10] <5.1 > 假定 客户 和 服务 都 被 包含 在 进程 中 ， 首 先 命名 客户 和 服务 系统 。 那 么 cache 放置 在 何 处 
可 以 加 速 进程 ? 

.1.2 [10] <5. 1 > 为 系统 设计 一 个 存储 器 层次 结构 。 说 明 在 层次 结构 中 不 同 层 的 典型 大 小 和 延迟 。 在 
cache 容量 和 访问 延迟 之 间 的 关系 是 什么 ? 

5.1.3 [15] <5.1 > 在 层次 结构 中 ， 数 据 传输 的 单元 是 什么 ? 数据 的 位 置 、 数据 的 大 小 和 传输 延迟 之 间 的 关 
系 是 什么 ? 

3.1.4 /10j <5.1，5.2 > 当 设计 一 个 存储 器 层次 结构 时 ， 通信 带宽 和 服务 处 理 带宽 是 需要 考虑 的 两 个 重要 
因素 。 在 这 里 哪 一 种 带宽 是 限制 因素 ? 如 何 改进 ? 改进 的 代价 是 什么 ? 

35.1.5 [5] <5.1，5.8 > 现在 考虑 多 个 客户 同时 访问 服务 器 ， 这 种 情况 能 改进 空间 和 时 间 局 部 性 吗 ? 

3.1.6 [10] <5.1，5.8 > 请 举例 说 明 cache 可 以 提供 过 时 的 数据 。 如 何 减少 或 者 避免 这 个 问题 。 


习题 ". < 


在 这 个 练习 中 ， 我 们 考虑 矩阵 计算 中 存储 器 的 局 部 特性 。 下 面 的 代码 由 C 语言 编写 ， 在 同一 行 中 的 元 
素 被 连续 存放 。 | 





久 预 取 《prefetching)， 使 用 特殊 指令 将 未 来 可 能 用 到 的 指定 地 址 的 cache 块 提 前 搬 到 cache 中 的 一 种 技术 。 
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tor(I =07TIT <8000;I++) 
a. for{J =0;I <g:J++) 
A[T][I] =B[J][0] +ALJI[I]; 


for(J =0;J <8:J++) 
hb。 for(I =0;I <8000;I++) 
ALI][J| =BLJ][0] +A[JI[I]; 


5.2,1 [5] <5.1>16 字 节 的 cache 行 中 可 以 存放 多 少 32 位 的 整数 ? 
5.2.2 15] <5.1> 访 问 哪 些 变量 会 显示 出 时 间 局 部 性 ? 
S.2.3 [5] <5.1> 访 问 哪 些 变量 会 显示 出 空间 局 部 性 ? 
局 部 性 同时 受 访 问 顺序 和 数据 存放 位 置 的 影响 。 同 样 的 计算 机 可 以 用 下 面 的 Matlab 来 写 ， 不 同 于 C， 
同一 列 的 矩阵 元 素 是 连续 存放 的 。 


for 工 =138000 
for J 一 工 :8 
辟 . A{(I,J) =B(J,0)} + 和 (IT) 7 
end 
engd 


for J=1:8 
for I=1:8000 
b. A(I,J) =B(I,0) +A(J,I); 
end 
end 


5.2.4 [10] <5.1> 存 放 全 部 将 被 访问 的 32 位 矩阵 元 素 需 要 多 少 16 字 节 的 cache 行 ? 
s.2.5 [5] <5.1 > 访问 哪 些 变 量 会 显示 出 时 间 局 部 性 ? 
5.2.6 15] <5.1> 访 问 哪 些 变量 会 显示 出 空间 局 部 性 ? 


习题 5. 3 


cache 为 处 理 器 提供 了 一 个 高 性 能 的 存储 器 层次 结构 ， 因 此 十 分 重要 。 下 面 是 -- 个 32 位 存储 器 地 址 引 
用 的 列表 ， 给 出 的 是 字 地 址 。 


a. 1, 134, 212, 1, 135, 213, 162, 161, 2, 44, 41 ，221 
bh, 6, 214, 175, 214, 6, 84, 65, 174, 64, 105, 85, 215 


3.3.1 [10]<5.2 > 已 知 一 个 直接 映射 的 cache， 有 16 个 块 ， 块 大 小 为 1 个 字 。 对 于 每 次 访问 ， 请 标识 出 二 
进 制 地 址 、 标 记 以 及 索引 。 假 设 cache 最 开始 为 空 ， 那 么 请 列 出 每 次 访问 是 合 中 还 是 缺失 。 

5 32 [10] <5.2 > 已 知 一 个 直接 映射 的 cache， 有 8 个 块 ， 块 大 小 为 2 不 字 。 对 于 每 次 访问 ， 请 标识 出 二 
进 制 地 址 、 标 记 以 及 索引 。 假 设 cache 最 开始 为 空 ， 那么 请 列 出 每 次 访问 是 命中 还 是 缺失 。 

5.3.3 [20] <5.2，5.3 > 对 已 知 的 访问 来 优化 cache 的 设计 。 这 里 有 三 种 直接 映射 的 cache 设计 方案 ， 每 个 
容量 都 为 8 个 字 ， C1l 抉 大 小 为 1 个 字 ，C2 块 大 小 为 2 个 字 ，C3 块 大 小 为 4 个 字 。 根 据 缺 失 率 ， 哪 
种 cache 设计 最 好 ? 如 果 缺 失 阻 塞 时 间 为 25 个 周期 ，C1 的 访问 时 间 为 2 个 周期 ，C2 为 3 个 周期 ， 
C3 为 5 个 周期 ， 那么 哪 种 cache 设计 最 好 ? 

这 里 有 许多 对 cache 整体 性 能 很 重要 的 不 同 的 设计 参数 。 下 表 列 出 了 对 于 不 同 的 直接 映射 cache 设计 的 
参数 。 
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TITT 
64 


ET 
IT 


5. 3.4 [15] <5.2 > 假定 32 位 的 地 址 ， 计 算 表 中 列 出 的 cache 所 需 的 总 位 数 。 给 定 总 的 大 小 ， 找 出 最 接近 
的 直接 映像 cache 的 总 的 大 小 ， 该 cache 块 的 大 小 为 16 个 字 长 或 更 大 。 请 解释 为 什么 第 二 种 cache 比 
第 一 种 cache 的 访问 速度 更 慢 ， 尽 管 第 二 种 cache 的 数据 量 更 大 。 

5.3.5 [20] <5.2，5.3 > 在 一 个 2 KB 的 组 相 联 cache 上 产生 一 系列 读 请 求 时 的 馈 失 率 要 比 在 表 中 cache 上 
执行 读 请 求 的 缺失 率 低 。 请 给 出 一 个 可 能 的 解决 方案 ， 使 得 表 中 列 出 的 cache 的 缺失 率 等 于 或 者 低 
于 2 KB cache 的 缺失 率 。 讨 论 这 种 解决 方案 的 优点 和 缺点 。 

5.3.6 [15] <5.2 >5.2 节 的 第 一 个 公式 说 明了 用 来 索引 直接 映射 cache 的 典型 方法 : ( 块 地 址 ) mod 
(cache 中 的 扎 数 ) 。 假 设 地 址 为 32 位 ，cache 中 有 1024 个 块 ， 考 虑 一 个 不 同 的 索引 函数 : ( 块 地 址 
[31:27] XOR 块 地 址 [26:22] ) 。 可 以 使 用 这 个 公式 来 索引 直接 映射 的 cache 吗 ? 如 果 可 以 ， 请 解 
释 原 因 ， 并 且 讨 论 cache 可 能 需要 做 的 一 些 改动 。 如 果 不 可 以 ， 请 解释 原因 。 


习题 5.4 
对 于 一 个 32 位 地 址 的 直接 上 映射 的 cache 设计 ， 下 面 的 地 址 位 用 来 访 问 cache。 


S.4.1 [51 <5.2 >cache 行 大 小 是 多 少 (单位 为 字 )? 

s.4.2 [5| <5.2 >cache 有 和 多少 项 ? 

5.4.3 [5] <5.2 > 这 样 的 cache 执行 时 所 需 的 总 位 数 与 数据 存储 位 数 之 间 的 比率 是 多 少 ? 
下 表 记 录 了 从 上 电 开 始 的 cache 访问 的 字 节 地 址 。 


TE 


5.4.4 [10] <5.2 > 有 和 多少 块 被 替换 ? 
5.4.5 [10] <5.2 > 命中 率 是 多 少 ? 
5.4.6 [20j <5.2> 列 出 cache 的 最 终 状 态 ， 每 个 有 效 项 以 记录 的 形式 < 索引 ， 标记， 数据 > 表示 出 来 。 


习题 5. 5 
回忆 一 下 两 个 写 策略 和 写 分 配 策略 ， 它 们 结合 起 来 既 可 以 在 一 级 cache 中 执行 ， 也 可 以 在 二 级 eache 中 


执行 。 
-ee | 二 级 cache 
a 写 回 ， 写 分 配 号 直达 ， 写 不 分 配 
b. 写 回 ， 写 分 配 号 直达 ， 写 分 配 


5.5.1 [5] <5.2，5.5 > 在 存储 器 层次 结构 中 的 不 同 层 使 用 绥 冲 器 来 降低 访问 延迟 。 对 这 个 给 定 的 配置 、 列 
出 一 级 cache 与 二 级 cache 之 间 ， 以 及 二 级 cache 与 存储 器 之 间 可 能 需要 的 缓冲 器 。 

5.5.2 [20] <5.2，5.5 > 描述 处 理 一 级 cache 写 缺 失 的 过 程 ， 考虑 里 面 的 组 件 以 及 替换 一 个 脏 块 的 可 
能 性 。 

5.5.3 [20] <5.2，5. 5 > 对 于 一 个 多 级 独占 cache (一 个 块 只 能 存放 在 一 个 cache 中 ， 或 者 在 一 级 cache 中 ， 
或 者 在 二 级 cache 中 ) 配置 ， 找 述 处 理 一 级 cache 写 缺 失 的 过 程 ， 考 虑 到 里 面 的 组 件 以 及 替换 一 个 及 
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块 的 可 能 性 。 
考虑 下 面 的 方案 和 cache 行为 。 
指令 cache 缺失 率 | 数据 cache 缺失 素 


每 1000 条 指令 中 数据 读 | 每 1000 条 指令 中 数据 写 
mm | | om% | wm 
mm | mm | 2 


5.5.4 [5] <5.2,5.5 > 对 于 一 个 使 用 写 直 达 法 、 写 分 配 策略 的 cache， 如 果 CPI 为 2， 所 需 最 小 的 读 / 写 带 
宽 是 多 少 〈 以 每 周期 字 节 数 来 度量 )? 

5.5.5 |5] <3.2，5.5 > 对 于 一 个 使 用 写 回 法 、 写 分 配 策略 的 cache， 假 定 30% 被 替换 的 数据 块 为 脏 块 ， 那 
么 如 采 CPI 为 2， 所 需 最 小 的 读 / 写 带宽 是 多 少 ? 

$5.5.6 [5] <5.2，5.5 > 如 果 要 实现 CPI = 1.5 的 性 能 ， 所 需 的 最 小 带宽 是 多 少 ? 


习题 5.6 


播放 音频 或 视频 文件 的 多 媒体 应 用 是 一 类 被 称 为 “ 流 ” 的 负载 的 一 部 分 ， 即 ， 它 们 取 回 大 量 的 数据 ， 
但 是 大 部 分 数据 都 不 会 再 使 用 。 考 虑 一 个 视频 流 负 载 依次 访问 一 个 512 KB 的 工作 集 的 情况 ， 地 址 流 如 下 : 


0, 4, 8, 12, 16, 20, 24, 28, 32, .- 








抉 大 小 〈 字 节 ) 








$.6.1 [5] <5.5，$.3 > 假设 有 一 个 64 KB 的 直接 映射 cache，cache 行 大 小 为 32 字 节 。 那 么 对 于 上 面 的 地 
址 流 ， 缺失 率 是 多 少 ? 当 cache 大 小 或 者 工作 集 变化 时 ，cache 如 何 随 之 变化 ? 根据 3C 模型 ， 这 些 
缺失 如 何 被 分 类 ? 

5.6.2 [5] <5.5，5.1 > 当 cache 行 大 小 分 别 为 16 字 节 、64 字 节 和 128 字 节 时 ， 重 新 计算 缺失 率 。 该 负载 
所 采用 的 是 哪 种 局 部 性 ? 

5.6.3 [10] <5. 10 >“ 预 取 ” 是 一 种 技术 ， 当 一 个 特殊 cache 行 被 访问 时 ， 预 测 地 址 模式 并 推测 地 取 回 
其 他 cache 行 。 预 取 的 一 个 例子 是 流 缓冲 区 ， 当 一 个 特定 的 cache 行 被 取 回 时 ， 将 与 其 相 邻 的 
cache 行 也 依次 预 取 回 到 一 个 独立 的 缓冲 区 中 。 如 果 所 需 的 数据 在 预 取 缓 冲 区 中 ， 那 么 看 成 是 一 次 
命中 并 且 将 数据 移 人 cache， 同 时 预 取 下 一 个 cache 行 。 假 设 一 个 流 缓冲 区 有 两 项 ， 并 且 假 设 cache 
延迟 满足 : 在 先前 cache 行 的 计算 完成 之 前 可 以 加 载 下 一 个 cache 行 。 那么 对 于 上 面 的 地 址 流 ， 缺 
失 率 是 多 少 ? 

cache 块 大 小 〈B) 影响 了 缺失 率 和 缺失 延迟 。 假 设 有 下 面 的 缺失 率 表 ， 并 假定 CPI 为 1 的 机 器 中 ， 
每 条 指令 平均 访问 次 数 〈 指 令 和 数据 ) 为 1.3S， 给 定 不 同 容量 的 cache 的 缺失 率 ， 请 找 出 最 优 的 cache 
块 大 小 。 





5.6.4 [10] <5.2 > 缺失 延迟 为 20 xB 个 周期 时 ， 最 佳 的 块 大 小 是 多 少 ? 
5.6.5 [10] <5.2> 缺 失 延 迟 为 24 +B 个 周期 时 ， 最 佳 的 块 大 小 是 多 少 ? 
5. 6.6 [10] <5.2> 缺 失 延 迟 为 便 定 值 时 ， 最 佳 的 块 大 小 是 多 少 ? 


习题 5. 7 


在 这 个 练习 中 ， 我 们 将 研究 不 同 容 量 对 整体 性 能 的 影响 。 通常 来 说 ，cache 访问 时 间 与 cache 容量 成 正 
比 。 假 设 访问 主 存 需要 70 ns， 并 且 在 所 有 指令 中 ， 有 36% 的 指令 需要 访 存 。 下 表 是 Pl 和 P2 两 个 处 理 器 各 
自 的 一 级 cache 的 数据 。 
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人 
” Tm | em | om 

| 6m 
”ee | | mm 


5.7.1 [5] <5.3 > 假定 一 级 cache 命中 时 间 决 定 了 Pl 和 P2 的 周期 时 间 ， 它 们 各 自 的 时 钟 频率 是 多 少 ? 
5.7.2 [5] <5.3 >Pl 和 P2 各 自 的 AMAT (平均 存储 器 访问 时 间 ) 分 别 是 多 少 ? 
s.7.3 [5] <5.3 > 假定 基本 的 CPI 为 1.0，P1l1 和 了 ZP2 各 自 的 总 CPI 分 别 是 多 少 ? 哪个 处 理 器 更 快 ? 

对 下 面 的 三 个 问题 ， 我 们 考虑 在 Pl 中 增加 二 级 cache， 以 弥补 一 级 eache 容量 的 限制 。 在 解决 这 些 问 
题 时 ， 依 然 使 用 上 表 中 一 级 cache 的 容量 和 命中 上 时间。 二 级 cache 缺失 率 是 它 的 局 部 缺失 率 。 


| 


ne 
"| mi 


5.7.4 [10j <5.3 > 增加 二 级 cache 后 ，P1 的 AMAT 是 多 少 ? 有 了 二 级 cache，AMAT 是 更 好 还 是 更 差 了 ? 

$5.7.5 [$5] <5.3 > 假定 基本 的 CPI 为 1.0， 增 加 二 级 cache 后 ，P1 的 总 的 CPi 是 多 少 ? 

5.7.6 [10] <5.3 >Pl 有 了 二 级 cache 后 ， 哪 个 处 理 器 更 快 ? 如 果 Pl 更 快 ， 那 么 P2 中 一 级 cache 的 缺失 率 
需要 为 多 少 才 能 匹配 Pl 的 性 能 ? 如 果 P2 更 快 ， 那么 Pl 中 一 级 cache 的 缺失 率 需要 为 多 少 才 能 匹配 
P2 的 性 能 ? 


习题 5.8 


这 个 练习 研究 了 不 同 cache 设计 的 效果 ， 特 别 将 关联 的 cache 与 5.2 节 中 的 直接 映射 的 cache 进行 比较 。 
练习 中 使 用 的 是 习题 5.3 中 的 地 址 流 表 。 

5.8.1 [10] <5.3 > 使 用 习题 5.3 中 的 访问 信息 ， 对 于 一 个 3 路 组 相 联 、 块 大 小 为 2 个 字 、 总 容量 为 24 个 
字 、 使 用 LRU 替换 算法 的 cache， 指 出 cache 中 最 终 的 内 容 。 对 每 个 访问 ， 标 识 出 索引 位 、 标 记 位 、 
块 候 移 位 ， 以 及 当前 访问 是 命中 还 是 缺失 。 

5.8.2 [10] <5.3> 使 用 习题 5.3 中 的 访问 信息 ， 对 于 一 个 全 相 联 、 块 大 小 为 1 个 字 、 总 容量 为 8 个 字 、 使 
用 LRU 替换 算法 的 cache， 指 出 cache 中 最 终 的 内 容 。 对 每 个 访问 ,标识 出 索引 位 、 标 记 位 ， 以 及 当 
前 访问 是 命中 还 是 缺失 。 

5.8.3 [15] <5.3 > 使 用 习题 5.3 中 的 访问 信息 ， 对 于 一 个 全 相 联 、 块 大 小 为 2 个 字 、 总 容量 为 8 个 字 、 使 
用 LRU 替换 算法 的 cache， 请 问 缺 失 率 是 多 少 ? 如 果 替 换 为 MRU (最 近 最 常 使 用 ) 算法 ， 缺 失 率 是 
多 少 ? 在 这 些 蔡 换 策略 下 ， 最 好 的 情况 下 ，cache 缺失 率 是 多 少 ? 

多 级 cache 是 一 项 重要 技术 ， 它 在 克服 一 级 cache 提供 的 有 限 空 间 的 同时 仍然 保持 了 速度 。 假 设 一 个 处 

理 器 的 参数 如 下 : 











每 条 指令 直接 映射 


5. 8.4 [10] <5.3 > 计算 表 中 处 理 器 的 CPI; 1) 只 有 一 级 cache; 2) 一 个 直接 映射 的 二 级 cache; 3) 一 个 8 路 组 
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相 联 的 二 级 cacbe。 如 果 主 存 访 问 时 间 加 倍 ，CFI 如 何 变 化 ? 如 果 主 存 访问 时 间 减 半 ，CPI 又 如 何 变化 ? 

$5.8.5 [10] <5.3 > 拥有 比 两 级 更 多 的 cache 层次 是 可 能 的 。 已 知 上 述 的 处 理 静 拥有 一 个 直接 映射 的 二 级 
cache ,一 -个 设计 者 希望 增加 一 个 三 级 cache， 其 访问 时 间 为 50 个 周期 ,并 和 且 全 局 缺失 率 降低 到 
1.3% 。 这 种 设计 能 提供 更 好 的 性 能 吗 ? 通常 来 说 ， 增 加 一 个 三 级 cache 的 优点 和 缺点 分 别 是 什么 ? 

$5.8.6 [20] <5.3 > 在 以 前 的 处 理 嘎 中， 如 Intel Pentium 或 Alpha 21264 ， 二 级 cache 在 远离 主 处 理 器 和 一 级 
cache 的 片 外 (放置 在 不 同 的 芯片 上 )。 这 使 得 二 级 cache 很 大 ,访问 延迟 也 高 得 多 ， 间 时 由 于 二 级 
cache 以 较 低 的 频率 运行 ， 带 宽 通 常 也 较 低 。 假 设 一 个 512 KB 的 片 外 二 级 cache 的 全 局 缺失 率 为 
4% 。 如 果 cache 每 增加 512 KB 容量 可 以 降低 0.7% 的 全 局 缺失 率 ， 并 且 cache 总 的 访问 时 间 为 50 个 
周期 ， 那 么 cache 容量 为 多 大 时 才能 匹配 表 中 直接 映射 的 二 级 cache 的 性 能 ? 如果 匹配 表 中 8 路 组 相 
联 的 cache 性 能 ，cache 容量 又 需要 是 多 少 ? 


习题 5.9 


对 于 一 个 高 性 能 系统 如 B-tree 索引 数据 库 ， 页 的 大 小 主要 由 数据 量 和 磁盘 性 能 决定 。 假 设 一 个 B-tree 
索引 页 〈 项 数 固定 ) 使 用 了 70% 。 使 用 的 页 就 是 B-tree 的 深度 ， 用 log (项 数 ) 来 计算 。 下 表 显 示 的 是 10 
年 前 的 一 个 拥有 16 字 节 表 项 的 磁盘 ， 延 迟 为 10 ms， 传 输 率 为 10 MB/s， 最 优 的 页 大 小 是 16 K。 


页 的 使 用 /B-tree 深度 
(保存 的 磁盘 访问 次 数 ) 


6. 49 或 log，{(2048/16 x0.7) 
4 7.49 


页 大 小 (KB) 索引 页 的 访问 开销 (ms) 效用 /代价 


10. 2 0. 64 
10. 4 0. 72 


to 


到 


5.9.1 [10] <5.4 > 如果 项 数 为 128 字 节 ， 最 佳 的 页 大 小 是 多 少 ? 

35.9.2 [10] <5.4> 根 据 习题 $. 9. 1， 如 果 页 处 于 半 满 状态 ， 最 佳 的 页 大 小 是 多 少 ? 

5.9.3 [20] <5.4> 根 据 习 题 5.9.2， 如 果 使 用 的 是 最 新 的 磁盘 ， 延 时 3 ms， 而 传输 率 为 100 MB/s 时 ， 最 
佳 的 页 大 小 是 多 少 ? 请 解释 为 什么 未 来 的 服务 器 可 能 用 较 大 的 页 ? 

在 DRAM 保存 “频繁 使 用 ”的 页 (“热门 ”的 页 ) 可 以 避免 磁盘 访问 ， 但 是 对 于 一 个 系统 ,我们 如 何 
判断 “频繁 使 用 ”的 精确 含义 ? 数据 工程 师 利用 DRAM 和 磁盘 访问 之 间 的 开销 比率 对 频繁 使 用 页 的 重用 时 
间 阅 值 进行 量化 。 磁 盘 访问 的 开销 是 $ Disk/accesses_per_sec ， 将 页 保存 在 DRAM 中 的 开销 是 $ DRAM_ 
MB/page_size。 在 某 些 年 代 中 ，— 典 型 的 DRAM 和 磁盘 开销 、 典 型 的 数据 库 页 大 小 如 下 表 所 示 . 


FR rr 
5 | | | 0 
mw | ow | “ | wm | 


5.9.4 [10] <5.1，5.4 > 对 于 这 三 种 技术 时 代 ， 重 用 时 间 阐 值 是 多 少 ? 

5.9.5 [10] <5.4 > 如果 我 们 保持 使 用 相同 的 4K 大 小 的 页 ， 重 用 时 间 赔 信和 是 多 少 ?这 里 趋势 是 什么 ? 

5.9.6 [20] <5.4> 为 了 保持 使 用 相同 的 页 大 小 〈 因 此 避免 软件 重 写 ) ， 其 他 方面 应 该 如 何 变化 ?讨论 与 当 
前 技术 和 成 本 趋势 的 相似 性 。 
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习题 5.10 

如 5.4 节 所 述 ， 虚 拟 存 储 器 使 用 一 个 页 表 来 追踪 虚拟 地 址 到 物理 地 址 之 间 的 映射 ~ 这 个 练习 说 明了 当 
地 址 被 访问 时 ， 页 表 如 何 更 新 。 下 表 是 在 一 个 系统 上 所 看 见 的 虚拟 地 址 流 。 假 设 4 KB 的 页 ， 一 个 四 项 的 全 
相 联 TLB ， 使 用 严格 的 LRU 替换 算法 。 如 果 必 须 从 磁盘 中 取 回 页 ， 那么 增加 下 一 次 能 取 的 最 大 页 数 。 


a | 4095, 31272, 15789, 15 000, 7193, 4096, 8912 
h. ] 9452, 30964, 19136, 46502, 38 110, 16653, 48480 





有 效 位 物理 页 /在 磁盘 上 


磁盘 


有 族人 
! | 
0 | 
0 | 碰 盘 
5 | °o。 
I 9 
1 1 | 


5. 10.1 [10] <5.4 > 已 知 表 中 的 地 址 流 ， 以 及 TLB、 页 表 的 初始 状态 ， 请 给 出 系统 的 最 终 状 态 。 对 于 每 次 
访问 ， 请 列 出 是 否 在 TLB 中 命中 ， 是 否 在 页 表 中 命中 或 是 发 生 缺 页 。 

5. 10.2 【15]<5.4 > 重复 习题 5. 10.1,， 但 是 这 次 使 用 16 KB 的 页 来 代替 4 KB 的 页 。 使 用 更 大 的 页 的 好 处 有 
哪些 ? 缺点 又 有 哪些 ? 

5. 10.3 [15] <5.3，5.4> 如 果 使 用 两 路 组 相 联 的 TLB， 请 指出 TLB 中 最 终 的 内 容 。 如 果 TLB 是 直接 映射 
的 ,同样 指出 TLB 中 最 终 的 内 容 。 讨 论 使 用 TLB 来 获得 高 性 能 的 重要 性 。 如 果 没 有 TILB， 那 么 如 
何 处 理 虚 拟 存储 器 访问 ? 

有 一 些 参 数 对 页 表 整 个 大 小 会 有 影响 。 下 面 就 列 出 一 些 关键 的 页 表 参 数 。 


页 表 项 的 大 小 





s.10.4 [5] <5.4 > 已 知 上 表 中 的 参数 ， 一 个 系统 用 了 一 半 的 内 存 来 运行 5 个 应 用 程序 ， 计 算 该 系统 使 用 的 
页 表 总 大 小 。 

3. 10.5 [10] <5.4 > 已 知 上 表 中 的 参数 ， 一 个 系统 用 了 一 半 的 内 存 来 运行 5 个 应 应 用 程序 ， 给 定 一 个 两 级 的 
有 256 项 的 页 表 ， 计 算 该 系统 使 用 的 页 表 总 大 小 。 假 次 主页 表 中 每 项 是 6 个 字 节 ， 计 算 所 需 的 最 小 
和 最 大 的 内 存 容量 。 

5.10.6 [10] <5.4 > 一 名 cache 设计 者 要 将 一 个 4KB 的 虚拟 索引 、 物理 标记 的 cache 的 容量 增 大 ， 已 知 页 
的 大 小 在 上 表 中 列 出 ， 那 么 能 否 构建 一 个 16 KB 的 直接 映射 cache， 假 设 块 大 小 为 2 个 字 ? 设计 者 
如 何 增加 cache 的 数据 大 小 ? 
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习题 5. 11 
在 这 个 练习 中 ,我 们 将 研究 对 页 表 进 行 空间 /时 间 的 优化 。 下 表 是 一 个 虚拟 存储 器 系统 的 参数 。 


i PR 
| | 


8 KB 
16 GB 4 KB 





5.11.1 [10] <5.4 > 对 于 一 个 单 级 页 表 ， 需要 多 少 页 表 项 (PTE)? 存放 页 表 需 要 多 少 物理 存储 器 大 小 ? 
5.11.2 [10] <5.4 > 使 用 多 级 页 表 可 以 降低 物理 存储 器 中 页 表 的 消耗 ， 它 在 物理 存储 器 中 只 保存 活路 的 
PTE。 这 种 情况 下 ， 需 要 多 少 级 的 页 表 ? 如 果 TLB 缺失 ， 地 址 转换 需要 访问 多 少 次 存储 器 ? 
5.11.3 [15] <5.4 > 反 置 页 表 可 以 用 来 进一步 优化 空间 和 时 间 。 存 放 页 表 需 要 多 少 PTE? 假设 执行 一 个 只 

希 表 ， 当 TLB 缺失 时 ， 在 正常 情况 下 和 最 差 情况 下 的 存储 器 访问 次 数 分 别 是 多 少 ? 
下 表 是 一 个 有 四 项 内 容 的 TLB。 
项 的 也。 | ”有效 位 物理 地 址 页 
1 1 


2 
1 一 


5.11.4 [5] <5.4 > 在 什么 样 的 情况 下 第 二 项 的 有 效 位 被 置 为 0? 

5. 11.5 [5] <5.4 > 当 一 条 指令 写 人 虚拟 地 址 页 号 为 30 处 时 ， 会 发 生 什么 情况 ?什么 时 候 软 件 管理 的 TLB 
比 硬件 管理 的 TLB 速度 快 ? 

5. 11.6 [5] <5.4 > 当 一 条 指令 写 人 虚拟 地 址 页 xxx 时 ， 会 发 生 什么 情况 ? 


习题 5. 12 


在 这 个 练习 中 ， 我 们 将 研究 替换 策略 是 如 何 影响 缺失 率 的 。 假 设 一 个 有 4 个 块 的 2 路 组 相 联 cache。 你 
会 发 现 画 表 (就 像 5.3. 1 节 的 例子 那样 ) 对 于 解决 习题 中 的 问题 很 有 帮助 ， 如 下 面 的 示范 ， 地 址 序列 为 
“0, 1, 2, 3, 4”, 


被 访问 的 主 存 块 的 地 4 被 逐 出 的 块 组 0 组 1 
天 | [3[0] | | | 
从 | |3#T[0 |  ” |#f01 
| 主 存 [0] | [0] 相 [2] 
| 主 存 [3] 
多 | 0 | 主 存 [4] | 主 窜 [2] | 主 存 [1] | 主 存 [3] 
| | | | | 


人 ~ | 
b 
半 
Ht 
tt 
By 


下 表 是 地 址 序列 。 


地 址 序列 
a. | 0, 2, 4, 0, 2, 4, 0, 2, 4 
b. 0, 2, 4, 2, 0, 2, 4, 0, 2 


5. 12.1 [5] <5.3,5.5 > 假定 使 用 LRU 替换 算法 ， 在 这 组 地 址 序列 中 有 多 少 次 命中 ? 
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5. 12.2 [5] <5.3，5.5 > 假定 使 用 MRU (最 近 最 常 使 用 ) 替换 算法 ， 在 这 组 地 址 序列 中 有 多 少 次 命中 ? 

5, 12.3 [5] <5.3，5.5 > 通过 掷 硬币 来 模拟 随机 替换 算法 。 例 如 , “正面 ”表示 逐 出 组 中 第 一 块 , “反面 ” 
表示 逐 出 组 中 第 二 块 。 在 这 组 地 址 序列 中 有 和 多少 次 命中 ? 

5.12.4 [10] <5.3,，5.5 > 为 了 最 大 化 命中 次 数 ， 每 次 替换 时 哪个 块 应 该 被 逐 出 ? 如 果 使 用 了 这 个 “最 优 
的 ”策略 ， 在 这 组 地 址 序列 中 有 和 多少 次 命中 ? 

5. 12.5 [10] <5.3，,，5.5 > 请 说 明 为 什么 实现 这 种 对 所 有 地 址 序列 来 说 都 是 最 优 的 cache 替换 策略 很 难 ? 

s. 12.6 [10] <5.3，5.5 > 假设 在 每 次 主 存 引 用 时 ， 可 以 决定 被 请 求 的 地 址 是 否 要 被 缓存 ， 这 对 缺失 率 有 什 
么 影响 ? 


习题 5. 13 


为 了 支持 多 虚拟 机 ， 需 要 两 级 存储 器 虚拟 化 。 每 个 虚拟 机 依然 控制 从 虚拟 地 址 (VA) 到 物理 地 址 
(PA) 之 间 的 映射 ， 同 时 管理 程序 将 每 个 虚拟 机 的 物理 地 址 (PA) 肌 射 到 实际 的 机 器 地 址 (MA) 。 为 了 加 
速 映 射 过 程 ， 一 种 被 称 为 “影子 分 页 ” (shadow paging) 的 软件 方法 在 管理 程序 中 复制 了 每 个 虚拟 机 的 页 
表 ， 并 且 侦 听从 虚拟 地 址 到 物理 地 址 的 映射 变化 ， 以 保证 两 个 副本 的 一 致 性 。 为 了 消除 影子 页 表 (shadow 
page table) 的 复杂 性 ， 一 种 被 称 为 媒 套 页 表 (nested page table) 或 被 称 为 扩展 页 表 (extended page table) 
的 硬件 方法 可 以 支持 两 种 页 表 (VA 一 PA 和 PA 一 MA)， 并 和 且 完全 依靠 硬件 来 查找 这 些 表 。 

考虑 下 面 的 操作 序列 : 


(1) 创建 进程 ; (2) TLB 缺失 ; (3) 缺 页 ; (4) 上 下 文 切换 。 


5. 13.1 [10j <5.4，5.6 > 对 于 给 定 的 操作 序列 ， 对 影子 页 表 和 航 套 页 表 分 别 会 发 生 什 么 情况 ? 
5.13.2 [10] <5.4，5.6 > 假设 一 个 基于 x86 架构 的 4 级 页 表 同 时 存放 在 客户 页 表 (guest page table) 和 骨 
套 页 表 中 ， 那 么 在 处 理 本 地 页 表 (native page table) TLB 缺失 和 夫 套 页 表 TLB 缺失 时 ， 分 别 需要 多 
少 次 存储 器 访问 ? 
5.13.3 [15j <5.4，5.6 > 在 TLB 缺失 率 、TLB 缺失 延迟 、 缺 页 率 、 缺 页 处 理 延 迟 之 间 ， 对 影子 页 表 来 说 ， 
哪些 度量 标准 更 重要 ? 而 对 于 肉 套 页 表 来 说 ， 哪 些 度量 标准 更 重要 ? 
下 表 是 影子 分 页 系统 的 参数 。 


每 1000 条 指令 TLB 缺失 数 榜 套 页 表 TLB 缺失 延迟 每 1000 条 指令 缺 页 数 影子 页 缺失 代价 
of | oo |] 芒 om 个 和 


5. 13.4 [10]<5.6 > 一 个 基准 测试 程序 的 本 地 执行 CPI 为 1， 如 果 使 用 影子 页 表 ，CPI 是 多 少 ? 如 果 使 用 赔 
套 页 表 (假设 只 有 页 表 虚 拟 化 开销 ) ，CPI 是 多 少 ? 

5. 13.5 [10j <5.6> 使 用 什么 技术 可 以 减少 影子 页 表 所 带 来 的 开销 ? 

5. 13.6 [10] <5.6> 和 使 用 什么 技术 可 以 减少 嵌 套 页 表 所 带 来 的 开销 ? 


习题 5. 14 


广泛 使 用 虚拟 机 最 大 的 障碍 之 一 是 运行 虚拟 机 所 导致 的 执行 开销 。 下 表 列 出 了 不 同 的 性 能 参数 和 应 用 
程序 行为 。 













每 10 000 
条 指令 中 特 
权 0/S 访问 


WO 访问 时 间 
(包括 trap 中 断 
客户 0/S 的 时 
间 ) 


1000 个 周期 
1000 个 周期 












基本 的 CPI 执行 rap 中断 | 行 tap 中 断 | 条 指令 中 IO 


的 性 能 影响 “| 访问 次 数 


100 [20 个 启 期 | 150 个 风骨 |29 
1 ju 25 个 出 舅 ]160 个 出 向 |10 | 
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5.14.1 [10] <35.6> 对 上 面 列 出 的 系统 计算 CE， 假设 没有 IO 访问 。 如 果 VMM 性 能 影响 加 信 ，CPI 是 多 
少 ? 如 果 减 半 呢 ?9 如 果 一 个 虚拟 机 软件 公司 希望 获得 10% 的 性 能 损失 ， 那 么 对 VMM 执行 trap 中 斯 
的 最 长 的 时 间 代价 是 多 少 ? 

5.14.2 [10] <5.6 > LO 访问 对 系统 整体 性 能 有 着 很 大 的 影响 。 使 用 上 面 性 能 特征 值 的 机 器 的 CI， 假设 是 
非 虚拟 化 的 系统 。 如 果 使 用 虚拟 化 的 系统 ，CPI 又 是 多 少 ? 如 果 系 统 中 0 访问 减 半 ， 那 么 这 些 
CPI 如 何 变化 ? 请 解释 为 什么 VO 限制 性 应 用 受 虚 拟 化 影响 很 小 。 

5.14.3 [30] <5.4，5.6 > 比较 并 对 比 虚拟 存储 器 和 虚拟 机 的 概念 。 各 自 的 目标 是 什么 ? 各 自 的 利弊 是 什 
么 ? 列 出 一 些 需要 虚拟 存储 器 的 情况 ， 以 及 一 些 需 要 虚拟 机 的 情况 。 

5. 14.4 [20」 <5.6 >5.6 节 讨 论 了 虚拟 化 ， 其 中 假设 虚拟 化 的 系统 和 底层 硬件 运行 相同 的 ISA。 然 而 ， 虚 拟 
化 的 一 种 可 能 的 用 途 是 对 非 本 地 的 ISA 进行 仿真 。QEMU 就 是 这 样 一 个 例子 ， 可 以 用 来 仿真 多 种 
JISA， 如 MIPS、SPARC 以 及 PowerPC。 与 这 种 虚拟 化 相关 的 一 些 难点 是 什么 ? 被 模拟 的 系统 可 能 比 
在 本 地 ISA 上 运行 得 更 快 吗 ? 


习题 5. 15 


在 这 个 练习 中 ， 我 们 将 研究 处 理 器 cache 控制 器 中 带 写 缓冲 串 的 控制 单元 。 可 以 使 用 图 5-34 的 有 限 状 
态 机 作为 设计 有 限 状 态 机 的 出 发 点 。 假 设 cache 控制 器 适用 于 5.7. 1 节 所 描述 的 简单 的 直接 映射 cache， 但 
是 需要 增加 一 个 写 缓冲 器 ， 其 容量 为 1 个 块 。 
回忆 一 下 ， 写 缓冲 器 的 目的 是 用 来 临时 存储 ， 因 此 处 理 器 在 发 生 脏 块 缺失 时 就 不 用 等 待 两 次 存储 器 访 
问 。 比 起 在 读 新 的 块 之 前 就 写 回 脏 块 ， 写 缓冲 器 缓存 了 脏 块 并 且 立 即 开始 读 新 的 块 。 而 脏 块 随后 被 写 人 主 
存 ， 同 时 处 理 器 也 在 工作 。 
5.15.1 [10] <5.5，5.7 > 如 果 处 理 器 发 出 一 个 请 求 并 且 在 cache 中 命中 ， 同 时 一 个 块 将 从 写 缓 冲 器 被 写 回 
到 主 存 ， 此 时 会 发 生 什 么 ? 
5. 15.2 [10] <5.5，5.7 > 如 果 处 理 器 发 出 一 个 请 求 并 且 在 cache 中 缺失 ， 同 时 一 个 块 将 从 写 缓 冲 器 被 写 回 
到 主 存 ， 此 时 会 发 生 什么 ? 
5.15.3 [30] <5.5，5.7 > 设计 一 个 有 限 状 态 机 使 得 写 缓冲 器 能 被 使 用 。 


习题 5. 16 


cache 一 致 性 考虑 的 是 多 个 处 理 器 看 到 的 同一 个 cache 块 。 下 表 显 东 了 两 个 处 理 器 以 及 它们 对 一 个 
cache 块 X 中 两 个 不 同 字 的 读 / 写 操作 (初始 值 X [0] =X[1] =0) 。 


一 mw 可 
-ol A | 
» tol, x ol or xi] -5 


5.16.1 [15] <5.8 > 当 执行 一 个 正确 的 cache 一 致 性 协议 时 ， 列 出 给 定 cache 块 可 能 的 值 。 如 果 协 议 没 有 保 
证 cache 一 致 性 ， 至 少 列 出 一 个 cache 块 可 能 的 值 。 
5. 16.2 [15] <5.8 > 对 于 监听 协议 ， 列 出 每 个 处 理 器 /cache 完成 上 面 的 读 / 写 操作 时 正确 的 操作 顺序 。 
5. 16.3 [10] <5.8 > 在 最 好 和 最 差 情况 下 ， 完 成 列 出 的 读 / 写 指令 ，cache 缺失 次 数 分 别 是 多 少 ? 
存储 器 一 致 性 考虑 的 是 看 到 的 多 个 数据 项 。 下 表 显 示 了 两 个 处 理 器 以 及 它们 对 不 同 的 cache 块 的 读 / 写 
操作 (A 和 8 日 的 初始 值 为 0) 。 


: A=1;?B =2;A++ ;B++; =-B;D =A; 
b. A=1;B+ =2;A++;B =4; =B;D 





3. 16.4 [15] <5.8 > 车 使 用 5.8 节 开始 部 分 列 出 的 保证 一 致 性 协议 的 假设 ， 请 列 出 C 和 DD 的 值 ， 
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5. 16.5 [15] <5.8 > 如 果 假 设 不 成 立 ， 那 么 至 少 列 出 一 对 C 和 可 能 的 值 。 
5.16.6 [15] <5.2，5. 8 > 对 于 写 策略 和 写 分 配 策略 的 多 种 组 合 ， 哪 些 组 合 可 以 简化 协议 的 执行 ? 
习题 5. 17 


Barcelona 和 Nehalem 都 是 单 芯 片 多 处 理 器 (chip muitiprocessor，CMP) ， 即 在 单个 芯片 上 有 多 个 核 和 
cache。 设 计 CMP 的 片上 二 级 cache 时 都 会 进行 权衡 。 下 表 列 出 了 两 个 基准 测试 程序 在 私有 二 级 cache 和 共 
享 二 级 cache 中 的 缺失 率 和 命中 延迟 。 假 设 每 32 条 指令 发 生 一 次 一 级 cache 缺失 。 


本 
ETTITTTTTE nm 
| 


下 表 列 出 了 命中 延迟 。 





5.17.1 [15] <5. 10 > 对 于 每 个 基准 测试 程序 ， 哪 种 cache 设计 更 好 ? 请 用 数据 来 支持 你 的 结论 。 

5.17.2 [15] <5. 10 > 共享 cache 的 延迟 随 着 CMP 规模 的 增长 而 增长 。 如 果 共 享 cache 的 延迟 加 倍 ， 请 选 出 
最 好 的 设计 。 当 CMP 中 核 的 数量 增加 时 ， 片 下 带宽 就 变 成 瓶颈 ， 如 果 片 下 存储 器 访问 延迟 加 倍 ， 
请 选 出 最 好 的 设计 。 

5.17.3 [10] <5.10 > 讨论 共享 二 级 cache 和 私有 二 级 cache 对 于 执行 单线 程 、 多 线程 以 及 多 道 程序 负载 时 
的 利弊 情况 ; 如 果 还 有 片上 三 级 cache， 请 重新 考虑 这 些 问 题 。 

5.17.4 [151 <5.10 > 假设 两 个 基准 测试 程序 的 基本 CPI 都 为 1 (理想 的 二 级 cache) 。 如 果 使 用 非 阻塞 
cache 能 将 同时 发 生 二 级 cache 缺失 的 平均 次 数 从 1 提升 到 2， 那 么 当 使 用 共享 二 级 cache 时 ， 性 能 
能 提升 多 少 ? 如 果 是 私有 二 级 cache， 性 能 又 能 达到 多 少 ? 

5. 17.5 [10] <5. 10 > 假设 新 一 代 的 处 理 器 每 18 个 月 处 理 器 核 的 数量 就 会 翻 倍 。 为 了 保证 每 个 核 的 性 能 处 
于 相同 水 平 ， 那 么 一 个 2012 年 的 处 理 器 需要 多 少 片 下 存储 器 带宽 ? 

5.17.6 [15] <5. 10 > 考虑 整个 存储 器 层次 结构 ， 哪 种 优化 可 以 改进 同时 发 生 的 缺失 数量 ? 


习题 2. 18 


在 这 个 练习 中 ， 我 们 介绍 了 网 络 服务 器 日 志 的 定义 ， 并 且 为 了 改进 日 志 处 理 速 度 ， 我 们 对 代码 优化 进 
行 了 研究 。 日 志 的 数据 结构 定义 如 下 : 


Struct entry { 


int SrcIP 》 // 运 程 IP 地 址 

char URL[128] ; // 请 求 URL (例如 . ,“GET index. html”) 
iong 1ong refTime ; ”// 访 问 时 间 

int status ; // 连 接 状 态 


char browser[64] ; // 客 户 浏览 器 和 名称 
} 1og [NUM ENTRIES] ; 


一 些 日 志 上 的 处 理 函 数 如 下 : 
a | topk sourceIP ( ) ; 
b. Peak hour (int status) ; // 给 定 状 态 的 峰值 


5S.18.1 [5] <$.11 > 对 于 给 定 的 日 志 处 理 函 数 ， 在 一 个 日 志 项 中 哪些 字段 将 被 访问 ?假设 cache 块 为 64 字 
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节 ， 没 有 预 取 ， 那 么 给 定 的 函数 平均 每 个 项 会 引发 多 少 次 cache 缺失 ? 
5. 18,2 [10] <$.11 > 为 了 改善 cache 的 应 用 和 局 部 访问 ， 你 会 如 何 重新 组 织 数据 结构 ? 请 给 出 结构 代码 
定义 。 
5. 18.3 [10] <5. 11 > 请 举例 说 明 另 一 种 不 同 数 据 结构 的 日 志 处 理 冰 数 。 如 果 两 个 函数 都 很 重要 ， 为 了 改进 
整体 性 能 ， 将 如 何 重 写 程序 ?补充 对 代码 片段 和 数据 的 讨论 。 
对 于 下 面 的 问题 ， 每 对 基准 测试 程序 使 用 的 数据 来 自 “SPEC CPU2000 基准 测试 程序 测 出 的 cache 性 
能 ” (www.cs.wisc.edu/ multifacet/ misc/ spec2000cache- data/ ) ， 如 下 表 所 示 。 


a. apsi/facerec 


hb. perlbmk/ammp 


s.18.4 [10] <5.11>64 KB 的 数据 cache 使 用 不 同 的 组 相 联 度 ， 对 于 每 个 基准 测试 程序 ， 每 种 缺失 类 型 
(强制 、 容 量 和 冲突 缺失 ) 相应 的 缺失 率 分 别 是 多 少 ? 
5S.18.5 [10] <5. 11 > 为 两 个 基准 测试 程序 共享 的 一 级 数据 cache 选择 组 相 联 度 ， 其 中 cache 大 小 为 64 KB。 
如 果 一 级 cache 是 直接 映射 的 ， 那 么 为 1 MB 的 二 级 cache 选择 组 相 联 度 。 
5.18.6 [20] <5.11 > 请 列举 一 个 缺失 率 表 的 例子 说 明 较 高 的 关联 度 实际 上 能 增加 缺失 率 。 并 构建 一 个 
cache 配置 以 及 访问 流 来 给 出 证 明 。 
小 测验 题 参 考 答案 
5.1 节 A 和 D。(C 是 错误 的 ， 因 为 每 个 计算 机 的 存储 器 层次 结构 的 开销 是 不 同 的 ， 但 是 在 2008 年 开销 
最 高 的 通常 是 DRAM。) 
5.2 节 A 和 D。 更 低 的 缺失 代价 可 以 允许 使 用 更 小 的 cache 块 ， 因 为 没有 更 多 的 延迟 ; 而 更 高 的 存储 带 
宽 通 常 导 致 更 大 的 块 ， 因 为 缺失 代价 只 是 稍微 大 了 一 些 。 
5.3 节 A。 
5.4 节 A 和 a, B 和 ec, C 和 b, DD 和 d。 
5s.5 蔬 8B。( 大 容量 的 块 和 预 取 都 能 降低 强制 缺失 ， 因 此 A 是 错误 的 。) 
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有 效 结合 传输 带宽 与 存储 器 资源 …… 可 以 快速 而 可 靠 地 访问 日 益 增长 的 宝贵 信息 … 无 论 是 


从 不 断 扩 容 的 磁盘 空间 还 是 从 有 无 尽 宝藏 的 因特网 。 
George Gilder, 《The End Js Drawing Nigh》 ,2000 
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计算 机 的 五 大 经 典 部 件 


6.1 引言 


如 果 用 户 的 电脑 死机 了 而 不 得 不 重启 ， 他 们 会 感到 肖 丧 ; 但 是 如 果 存 储 系统 崩 演 了 而 丢失 
信息 ， 情 况 就 会 更 糟 。 因 此 ， 存 储 的 可 信 度 标准 要 大 大 高 于 计算 。 网 络 也 为 处 理 通信 错误 准备 了 
一 些 方案 ， 包 括 几 套 检 测 错误 并 从 中 恢复 的 机 制 。 因 此 ， 输 入 与 输出 系统 (IO) 通常 把 重点 放 
在 可 信和 度 与 成 本 上 ， 而 处 理 器 和 内 存 则 把 重点 放 在 性 能 与 成 本 上 。 

VO 系统 还 必须 考虑 设备 的 可 扩展 性 和 多 样 性 ， 而 这 是 处 理 器 所 不 关心 的 。 可 扩展 性 涉及 存 
储 设备 的 容量 ， 这 是 YO 系统 的 又 一 个 设计 参数 ;对 完成 它们 的 任务 而 言 ， 系 统 可 能 需要 拥有 较 
低 限 的 存储 容量 。 

尽管 0 的 性 能 重要 性 相对 较 低 ,但 它 的 表现 更 为 繁杂 。 比 如 ， 对 某 些 设备 来 说 ， 我 们 
主要 关心 存储 延 时 ， 而 对 另外 一 些 设备 来 说 ， 香 吐 率 才 是 至 关 重 要 的 因素 。 进 一 步 来 说 ,性 
能 的 好 坏 取决 于 系统 的 很 多 方面 ， 如 设备 特性 、 设 备 与 系统 中 其 他 部 分 的 连接 、 存 储 器 层次 
结构 和 操作 系统 等 。 系 统 所 有 的 组 成 部 分 ， 从 单个 VO 设备 到 处 理 器 ， 再 到 系统 软件 ， 都 会 
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影响 到 包括 VO 操作 在 内 的 任务 可 信和 度 、 可 扩展 性 和 性 能 。 图 6-1 描述 的 就 是 一 个 带 有 LO 设 


备 的 简单 系统 的 结构 。 
处 理 器 中 断 | 
| 高速 级 存 | 6-1 LO 设备 典型 的 连接 
2 

Se 9 设备 与 处 理 器 以 及 内 存 之 间 的 连接 
线路 通常 被 称 作 总 线 ， 虽 然 这 个 术语 意味 
a i 着 共享 的 并 行 连 线 ， 但 如 今 很 多 WO 连接 
1/O IO IO 与 专用 串 行 总 线 很 相似 。 本 章 将 介绍 设备 
主 丰 控制 器 控制 器 与 处 理 器 之 间 使 用 这 些 互联 协议 以 及 中 断 


来 通信 。 图 6-9 给 出 了 一 个 桌面 PC 机 的 
例子 。 
磁盘 | | 磁盘 图 像 输出 na/ 


VO 设备 有 令 人 难以 置信 的 多 样 性 。 由 此 带 来 的 众多 特性 中 ， 有 三 类 极为 重要 、 

。 行为 《behavior) : 输入 (只 读 )、 输 出 (只 写 ， 不 能 被 读 ) 或 者 存储 (可 以 被 重读 或 者 重 写 )。 

e 合作 者 (partner): IO 设备 的 另 一 端 是 人 还 是 机 器 ， 是 在 输入 端 输入 数据 还 是 在 输出 端 
读数 据 。 

。 数据 速率 〈data rate) : 数据 在 LO 设备 与 主 存 或 者 处 理 器 之 间 传 输 的 峰值 速率 ( peak 
rate) 。 它 可 用 来 了 解 在 设计 一 个 VO 系统 时 ， 设 备 能 产生 的 最 大 需求 。 

例如 ， 键 盘 是 一 个 由 人 使 用 的 输入 〈input) 设备 ， 具 有 大 约 每 秒 10 个 字 节 的 峰值 数据 过 

率 。 图 6-2 列 出 了 一 些 连接 到 计算 机 上 的 IO 设备 。 








数据 速率 (Mbit’s) 
0. 0001 
0. 0038 


0. 2640 





羽 
> 





0. 2640 


ny 

者 
EE 
El>|> 
乾 






， 


800. 0000 ~ 8000. 0000 
0. 1280 ~ 6. 0000 

100. 0000 ~ 10 000. 0000 
11. 0000 ~ 54. 0000 

80. 0000 ~ 220. 0000 

5. 0000 ~ 120. 0000 

32. 0000 ~ 200. 0000 
800. 0000 ~ 3000. 0000 


图 6-2 各 种 VO 设备 
中 以 根据 以 条 件 来 区 别 VO 设备， 首先， 它们 是 用 于 输入 、 输 出 还 是 存储 的 设备 ;其 次 ， 它 们 的 合作 
者 (人 还 是 其 他 的 计算 机 ); 再 次 ， 它 们 的 峰值 通信 速率 。 数据 速率 快慢 跨度 达 八 个 数量 级 。 注 意 网 络 可 


以 作为 输入 设备 或 者 输出 设备 ， 但 是 不 能 用 作 存 储 设 备 。 设备 的 传输 速率 总 是 以 基 10 来 表示 ， 所 
以 10 Mbitvs = 10 000 000 bit/s, 


在 第 1 章 ， 我 们 简要 讨论 了 四 个 重要 的 、 具 备 代表 性 的 /0 设备 : 鼠标、 图 像 显示 器 、 磁 盘 
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中 | 沽 | 苦 | 革 
弗 | 蓝 | 刘 | 刘 


第 6 章 ”存储 器 和 其 他 I/O 主题 . 357 


以 及 网 络 。 本 章 ， 我们 将 更 加 深入 地 研究 存储 及 相关 问题 。 光 盘 中 关于 网 络 的 高 级 话题 ， 在 作者 
另外 一 本 书 中 进行 了 详细 介绍 。 

我 们 如 何 评测 VO 性 能 常常 取决 于 应 用 。 在 某 些 环境 下 ,我们 注重 系统 的 吞吐 量 。 在 这 种 情 
况 下 ，1O 带宽 将 是 最 重要 的 。 但 即便 是 WO 带宽 也 有 两 种 不 同 的 方法 来 测量 : 

1) 在 某 一 段 时 间 内 ， 我 们 能 够 从 系统 中 传送 多 少数 据 ? 

2) 在 某 个 单位 的 时 间 内 ， 我 们 能 够 做 多 少 个 IO 操作 ? 

选取 何 种 性 能 测量 方法 取决 于 实际 的 工作 环境 。 例 如 ， 在 很 多 媒体 应 用 中 ， 大 部 分 的 VO 请 
求 用 于 处 理 长 的 数据 流 ， 因 此 传送 带宽 是 重要 的 指标 。 在 另外 一 些 情况 下 ， 我 们 可 能 希望 /0 设 
备 进行 多 个 小 数据 量 的 、 不 相关 的 存 取 。 这 里 有 一 个 来 自 美国 国家 税务 局 (NITS) 的 税收 办 公 
室 的 例子 。 美 国 国家 税务 局 通常 需要 在 某 一 段 特 定 的 时 间 内 处 理 一 大 批 表格 ， 各 税务 表格 分 别 
存储 且 相 当 小 。 一 个 面向 大 文件 的 传输 系统 或 许 也 能 满足 要 求 ， 但 是 一 个 能 够 支持 小 文件 同时 
传输 的 LO 系统 对 于 处 理 这 些 数 以 百 万 计 的 税务 表格 来 说 也 许 更 廉价 和 更 便捷 。 

在 其 他 一 些 应 用 中 ， 我 们 更 重视 响应 时 间 ， 即 为 完成 特定 任务 总 共 需 要 的 时 间 。 当 IO 请 
求 "非常 多 的 时 候 ， 响 应 时 间 严 重 依赖 于 带宽 ， 但 是 很 多 情况 下 大 多 数 访问 的 数据 量 很 小 ， 所 以 
单个 访问 操作 延迟 时 间 最 短 的 VO 系统 将 获得 最 快 的 响应 时 间 。 对 于 台式 机 和 笔记 本 电脑 这 样 的 
单 用 户 机 器 ， 响 应 时 间 是 关键 的 性 能 指标 。 

大 多 数 应 用 ， 特 别 是 在 广大 商务 计算 机 市 场 中 ， 要 求 同 时 具备 高 吞吐 量 和 快速 的 响应 时 间 。 
目 动 取款 机 (ATM) 、 订 货 库存 跟踪 系统 、 文 件 服务 器 、Web 服务 器 都 属于 这 种 情况 。 在 这 些 系 
统 中 ， 我 们 关心 每 个 任务 耗费 多 少时 间 以 及 每 秒 可 以 处 理 多 少 任务 。 如 果 每 次 应 答 都 需要 15 分 
钟 ， 那 么 每 小 时 能 处 理 的 ATM 请 求 数量 将 没有 任何 意义 ， 你 将 不 可 能 再 有 任何 用 户 。 同 样 ， 如 
采 你 对 每 个 请 求 都 能 快速 处 理 , 但 是 一 次 只 能 同时 处 理 少 量 的 请 求 ， 那 么 也 无 法 支持 多 个 ATM 
或 者 每 台 ATM 的 计算 机 成 本 会 很 高 。 

总 之 ， 三 种 类 型 的 计算 机 (台式 机 、 服 务 器 以 及 和 能 人 式 计算 机 ) 对 于 IO 可 信 度 和 成 本 是 
敏感 的 。 人 台式 机 和 柑 信 式 系统 更 注重 响应 时 间 和 1/0 设备 的 多 样 性 ， 而 服务 器 更 关心 天 叶 量 和 1/ 
0 设备 的 可 扩展 性 。 


6.2 可 信和 度 、 可 靠 性 和 可 用 性 

用 户 淘 望 得 到 可 以 信赖 的 存储 器 ,但 是 如 何 来 定义 它 呢 ? 在 计算 机 界 ， 这 上 比 查 字典 难 多 了 。 
经 过 大 量 的 辩论 ， 下 面 的 描述 可 以 被 认为 是 标准 的 定义 (Laprie，1985) ， 

计算 机 系统 的 可 信和 度 指 它 所 提供 的 服务 质量 达到 了 有 理由 给 予 信任 的 水 平 。 系统 提供 的 服 
务 是 指 通过 其 他 系统 与 本 系统 的 用 户 交互 其 他 系统 观察 到 的 本 系统 的 实际 行为 。 每 个 模块 均 
有 指定 的 理想 行为 ， 其 中 服务 需求 是 对 期 望 行为 广泛 认同 的 描述 。 当 实 际 的 行为 与 指定 的 行为 
偏离 上 时， 系统 发 生 错 误 。 

这 样 ， 为 了 确定 可 信和 度 ， 需 要 给 出 期 望 行为 的 一 个 参考 规范 。 这 样 用 户 在 观察 系统 时 ， 会 看 
到 系统 在 参考 规范 描述 的 两 种 服务 状态 之 间 改 变 . 

1) 服务 实现 (service accomplishment) ， 按照 预定 方式 提供 服务 。 

2) 服务 中 断 (service interruption) ， 提 供 不 同 于 预定 的 服务 。 

从 状态 1 到 状态 2 的 转换 由 故障 引起 ， 从 状态 2 到 状态 1 的 转换 称 为 恢复 (restoration ) 。 故 
障 可 以 是 永久 性 的 ， 也 可 以 是 偶发 性 的 。 偶发 性 的 故障 更 难 诊断 ， 因 为 系统 在 两 个 状态 之 间 振 
荡 ; 相 比较 而 言 ， 永 久 性 故障 的 诊断 容易 些 。 以 上 定义 导致 两 个 相关 术语 : 可 靠 性 (reliability) 


昌 对 LO 设备 的 读 或 写 。 
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和 可 用 性 (availability) 。 
可 靠 性 是 实现 连续 服务 的 度量 一 一 或 者 说 从 服务 开始 的 测量 点 至 出 现 故 障 时 的 时 间 度 量 。 


加 此， 图 6-5 的 磁盘 平均 故障 时 间 〈mean time to failure，MTIF) 就 是 一 个 可 靠 性 的 度量 。 一 个 
相关 的 术语 是 年 失效 率 (annual failure rate，AFR)。AFR 可 理解 为 在 给 定 的 MTTF 下 ， 设 备 在 一 
年 内 可 能 发 生 故 障 的 概率 。 服 务 中 断 使 用 平均 修理 时 间 《mean time to repair，MTTR). 作为 度量 。 
故障 之 间 的 平均 时 间 (mean time between failures，MTBF) 刚好 是 MTTF 与 MTTR 的 和 。 虽 然 MT- 
BF 被 广泛 使 用 ， 但 MTTF 通常 是 一 个 更 合理 的 度量 。 

当 服 务 在 上 述 两 个 状态 之 闻 变 化 时 ， 可 用 性 是 服务 实现 的 一 个 度量 。 可 用 性 可 以 表示 为 

Availability = MTTF/( MTTF + MTTR ) 

注意 ， 可 靠 性 和 可 用 性 实际 上 都 是 可 度量 的 ， 而 不 仅 是 可 信 度 的 同义词 。 

引起 故障 的 原因 有 哪些 ?图 6-3 总 结 了 许多 关于 计算 机 系统 和 通信 系统 的 故障 原因 的 文章 。 
很 明显 ， 人 为 操作 是 一 个 重要 的 故障 来 源 。 


“操作 虽 | 软件 | 硬件 
42% 





25% 
44 和 





6-3 故障 原因 的 研究 总 结 

虽然 很 难 收 集 数据 来 确定 操作 员 是 不 是 导致 故障 的 原因 ( 因为 通常 是 操作 员 来 记录 故障 的 原因 ) ， 但 是 这 些 
研究 确实 找到 了 操作 员 作为 故障 原因 的 数据 。 常 常 还 有 其 他 类 型 的 原因 ， 如 环境 因素 ， 但 这 些 通常 都 徽 不 足 
道 。 图 中 最 上 面 两 行 来 自 于 Jim Gray [1990] 的 一 篇 经 典 论文 ， 自 收集 数据 后 的 20 年 来 仍 被 广泛 引用 。 接 下 
来 两 行 来 自 Murpby 和 Gent 的 一 篇 论文 ， 他 们 研究 不 同时 期 VAX 系统 的 出 错 原 因 【 “ Measuring system and soft- 
ware reliability using an automated data collection process”， 《Quality and Reliability Engineering International 11，S》 ， 
1995 年 10 ~12 月 , 341 ~353]。 第 5 行 和 第 6 行 是 Kuhn 和 Patty Enriquez 对 美国 公用 交换 电话 网 络 FCC 错误 
数据 的 研究 [ “Sources of failure in the public switched telephone network”, 《IEEF Computer 30: 4》，1997 年 4 
月 ,31 ~36] 。 最 近 的 关于 三 项 因特网 服务 的 研究 来 自 于 Oppenheimer、 Ganapath 和 Patterson [2003 ] 。 


为 了 提高 MTTF ， 可 以 提高 部 件 的 质量 或 者 设计 一 种 可 以 在 一 些 部 件 发 生 故 障 时 能 继续 工 
作 的 系统 。 因 此 ， 需 要 根据 实际 情况 定义 故障 《failure ) 。 某 个 部 件 的 故障 不 一 定 引 起 系统 故 
障 。 为 了 明确 这 种 区 别 ， 术语 fault (错误 ) 用 来 表示 一 个 部 件 的 故障 。 有 三 种 提高 MTTF 的 
途径 : 

1) 错误 避免 (fault avoidance) : 通过 结构 设计 来 防止 错误 的 发 生 。 

2) 错误 容忍 (fault tolerance ) ; 利用 元 余 技 术 人 允许 服务 在 错误 发 生 时 仍然 能 正常 地 工作 ， 这 
里 的 错误 主要 指 的 是 硬件 错误 。6. 9 节 中 描述 的 RAID 方 法 就 是 通过 错误 容忍 使 得 存储 设备 变 得 
可 人 靠 。 

3) 错误 预测 (fault forecasting) ， 预 测 错误 的 存在 和 产生 ， 将 这 种 预测 使 用 到 硬件 错误 和 软 
件 错误 中 ， 可 以 达到 在 一 个 部 件 出 现 故障 之 前 蔡 换 掉 它 的 目的 。 

缩短 MTTR 可 以 和 增 大 MTTF 一 样 达到 提高 可 用 性 的 目的 。 例如 ， 错 误 检 测 、 错 误诊 断 以 及 
销 误 修 复工 具 均 有 助 于 减少 修复 错误 (无论 是 人 为 的 ， 还 是 软 、 硬件 引起 的 ) 的 时 间 。 
小 测验 


关于 可 信和 度 ， 下 面 哪些 论述 是 正确 的 ? 
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A. 如 果 系 统 上 电 ， 那 么 它 的 所 有 组 成 部 分 都 在 完成 它 被 期 望 的 服务 。 

B. 可 用 人 性 是 系统 可 以 取得 所 期 望 服务 的 时 间 百 分 比 ， 是 一 个 可 量化 的 指标 。 
C. 可 靠 性 是 系统 可 以 实现 连续 服务 的 一 个 可 最 化 指标 。 

D. 如 今 ， 软 件 是 故障 的 一 个 主要 源头 。 


6.3 ”磁盘 存储 器 

如 第 1 章 所 述 ， 磁 盘 依 赖 带 磁 介 质 表 面 的 旋转 盘 片 并 使 用 一 个 可 以 移动 的 读 / 写 磁头 来 访 
问 。 磁 盘存 储 是 非 易 失 性 的 一- 当 停止 供电 后 ， 存 储 设备 还 能 够 保持 数据 。 磁 盘 可 由 一 玲 盘 
片 (1 ~4 个 ) 构成 ， 每 张 盘 片 有 两 个 可 记录 数据 的 磁盘 面 。 盘 片 以 5 400 ~ 15 000 RPM ( 转 / 
分 ) 的 速度 旋转 ， 盘 片 直径 从 1 ~ 3.5 英寸 不 等 。 每 一 个 盘面 被 分 成 许多 磁道 8。 每 一 个 磁盘 
面 一 般 有 10 000 ~ 50 000 条 磁道 。 每 个 磁道 又 被 分 成 一 些 记录 信息 的 扇 区 8; 每 条 磁道 可 以 有 
100 ~ 500 个 扇 区 ; 扇 区 的 大 小 通常 有 512 ~ 4 096 个 字 节 。 在 磁 介 质 中 一 般 顺 序 存 放 着 扇 区 
号 、 则 阳 、 存 储 在 肩 区 的 带 有 纠 错 码 的 信息 〈 参 见 光 盘 中 的 附录 C) 、 间 隔 和 下 一 个 肩 区 的 扇 
区 号 等 。 - 

早期 磁盘 的 所 有 磁道 具备 相同 数目 的 扇 区 ， 因 此 具备 相同 数目 的 位 数 ， 但 是 随 着 20 世纪 90 
年 代 早期 区 域 位 记录 ZBR (zone bit recording) 的 出 现 ， 磁 盘 变 成 每 个 磁道 拥有 可 变数 目的 扇 区 
〈 位 数 也 是 如 此 ) ， 而 保持 位 之 间 的 距离 不 变 。ZBR 增加 了 外 围 磁 道 的 位 数 ， 因 此 增加 了 磁盘 可 
用 容量 。 

在 第 1 章 我 们 看 到 ， 为 了 读 / 写 信息 ， 磁 头 必 须 移 动 到 正确 的 位 置 上 。 每 个 磁盘 面 的 磁头 
都 被 连 在 一 起 并 且 一 起 移动 ， 因 此 每 个 磁头 会 处 在 每 个 面 的 相同 磁道 上 。 柱 面 ( cylinder) 这 
个 术语 是 指 : 当 磁 头 定位 在 盘面 的 某 个 给 定位 置 ， 磁 头 下 所 有 的 盘面 对 应 的 磁道 所 形成 的 
柱 面 。 

为 了 访问 数据 ， 操 作 系 统 必须 通过 一 个 分 三 个 阶段 完成 的 进程 来 指挥 磁盘 。 第 一 步 ， 把 磁头 定位 
到 正确 的 磁道 上 ， 这 个 操作 叫做 寻 道 ”， 磁 头 找到 正确 磁道 的 时 间 被 称 为 寻 道 时 间 (seek time) 。 

磁盘 制造 商 在 使 用 手册 中 报告 了 最 小 寻 道 时 间 、 最 大 寻 道 时 间 和 平均 寻 道 时 间 。 前 两 种 很 
容易 测量 ,但 是 平均 寻 道 时 间 由 于 与 寻 道 距离 有 关 而 有 多 种 解释 。 工业 界 用 所 有 可 能 的 寻 道 时 
间 总 和 除 以 可 能 发 生 的 寻 道 次 数 来 计算 平均 寻 道 时 间 。 平 均 寻 道 时 间 一 般 宣传 为 3 ~13 ms， 但 是 
依赖 于 应 用 和 对 磁盘 请 求 的 调度 ， 由 于 磁盘 访问 的 局 部 性 ， 实际 的 平均 寻 道 时 间 仅 仅 为 上 述 数 
值 的 25% ~33% 。 这 种 局 部 性 的 出 现 一 方面 是 由 于 同一 个 文件 的 连续 访问 操作 ， 男 一 方面 由 于 
操作 系统 尽量 把 相 邻 地 址 的 操作 安排 在 一 起 。 

磁头 一 旦 到 达 正 确 的 磁道 ， 我 们 必须 等 待 正确 的 赎 区 旋转 到 读 / 写 磁头 下 面 ， 这 段 时 间 被 称 
为 旋转 时 间 。。 取得 所 要 的 信息 的 平均 延 时 是 磁盘 旋转 半 周 所 需 的 时 间 。 因为 磁盘 旋转 速度 是 
5 400 ~ 15 000 RPM， 所 以 平均 旋转 延 时 是 在 


-0.5 转 
平均 旋转 延 时 = 3400 RPM = 0.0056s = 5.6 ms 


与 


非 易 失 性 的 (nonvolatile) ， 当 断 电 时 ， 数 据 仍 保留 的 存储 设备 。 

磁道 (track) : 磁盘 面 上 的 一 个 同心 圆 为 一 个 磁道 。 

月 区 (sector) : 磁道 上 的 一 段 弧 称 为 扇 区 ，-…-/1 扇 区 是 磁盘 中 被 读 或 者 写 的 最 小 信息 块 。 

了 寻 道 〈seek) ; 在 一 个 读 或 者 写 操作 中 ， 把 磁头 定位 到 合适 的 磁道 的 过 程 。 

这 入 时 间 (rotational latency ) : 也 称 为 旋转 延迟 (rotational delay) ， 是 使 得 合适 的 鹿 区 旋转 到 读 / 写 头 下 的 
iH 0 


和 000 
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0. 3 转 
= 一 一 ~ 人 0. 0s =2.0 
平均 旋转 医 时 = js Rs = 0.0020s = 2.0 ms 


之 间 。 

磁盘 存 取 的 最 后 一 个 要 素 是 传输 时 间 ， 即 传输 一 块 数据 所 需 的 时 间 。 传 输 时 间 是 扇 区 大 小 、 
旋转 速度 和 磁道 记录 密度 的 基数 。 在 2008 年 ， 传 输 速 率 处 于 70 MB/s 和 125 MB/s 之 间 。 一 个 使 
得 问题 复杂 化 的 因素 是 大 部 分 的 磁盘 控制 器 中 都 有 一 个 内 置 缓存 来 保持 存储 访问 过 的 肩 区 ; 而 
通过 这 个 缓存 的 数据 传输 速率 通常 都 相当 高 ，2008 年 可 以 达到 375 MB/s， 即 3 Gbit/s。 如 今 ， 大 
多 数 磁盘 以 多 个 扁 区 为 单位 进行 传输 。 

磁盘 控制 器 (disk controller) 通常 用 来 具体 地 控制 磁盘 以 及 磁盘 与 内 存 之 间 的 数据 传输 。 控 
制 器 导致 磁盘 存 取 时 间 又 多 了 一 项 一 一 控制 器 时 间 (controller time) ， 它 是 执行 VO 存 取 操作 时 
控制 器 带 来 的 开销 。 执 行 /O 操作 的 平均 时 间 将 由 这 四 段 时 间 组 成 ， 此 外 还 有 因 其 他 程序 使 用 磁 
盘 而 带 来 的 等 待 时 间 。 
IEE 开 。 读 磁盘 时 间 

对 于 一 个 旋转 速度 为 15 000 RPM 的 磁盘 ， 读 或 者 写 一 个 $12 字 节 的 肩 区 需要 多 少时 间 ? 手 
册 上 宣称 的 平均 寻 道 时 间 是 4ms， 传 输 速 率 是 100 MB/s， 控 制 器 开销 是 0.2ms。 假 设 这 个 磁盘 是 
空闲 的 ， 也 就 是 没有 等 待 时 间 。 
答案 | 

平均 磁盘 存 取 时 间 = 平均 寻 道 时 间 + 平均 旋转 延迟 + 传输 时 间 + 控制 器 开销 。 将 手册 中 公 
布 的 平均 寻 道 时 间 代 入 ， 答 案 是 


0. $ 转 0.5 KB 
4.0 ms + 75 000 RPM + 100 MBZS+04 “ms=4.0+2.0+0.005 =6.2 ms 


如 果 测 量 到 的 平均 寻 道 时 间 是 手册 中 所 公布 的 平均 寻 道 时 间 的 25% ， 那 么 ， 答 案 就 变 为 
1.0 ms +2.0 ms +0.005 ms +0.2 ms =3.2 ms 

注意 ， 当 我 们 考虑 测量 到 的 平均 寻 道 时 间 时 ， 旋 转 延 时 成 为 访问 时 间 中 最 大 的 部 分 ， 和 手册 
中 所 说 的 平均 寻 道 时 间 是 访问 时 间 中 最 大 的 部 分 相 矛 盾 。 

磁盘 的 密度 持续 增加 已 经 超过 50 年 。 如 图 6-4 表示 ， 磁 盘 的 密度 提高 了 ， 物理 体积 却 在 不 
断 缩 小 的 这 种 综合 影响 邻 人 吃惊 。 磁 盘 设 计 者 的 不 同 目 的 导致 在 不 同时 期 都 出 现 了 具有 不 同 特 
点 的 磁盘 。 图 6-5 显示 了 四 种 不 同 磁盘 的 特性 。 在 2008 年 ， 来 自 同一 厂商 的 磁盘 售 价 每 GB 为 
0.3 ~5 美元 。 在 市 场 上 ,根据 尺寸 、 接 口 和 性 能 的 不 同 ， 一 般 的 价格 范围 为 每 GB 0. 2 ~2 美元 。 

在 可 以 预见 的 未 来 ， 应 用 磁盘 仍然 是 主流 ， 但 访问 数据 块 的 方法 会 不 断 改 变 。 户 区 -磁道 - 
柱 面 (sector-track-cylinder) 模型 是 这 样 的 ， 邻 接 的 块 处 在 同一 个 磁道 上 ; 处 于 同一 个 柱 面 的 块 
将 花费 比较 少 的 时 间 来 寻找 ， 因 为 不 需要 寻 道 时 间 ，; 邻近 磁道 的 寻 道 时 间 更 少 。 这 种 模型 失败 的 
原因 在 于 接口 层次 的 上 升 。 如 ATAS 和 SCSI 这 类 高 级 智能 接口 需要 在 磁盘 中 设置 微 处 理 器 ， 来 
进行 性 能 的 优化 。 

为 了 加 速 顺序 的 传输 ， 这 些 高 级 接口 将 磁 栖 组 织 成 类 似 磁 带 设备 ， 而 非 随机 访问 设备 。 逻 辑 
块 按照 类 似 单一 平面 上 的 蛇 形 线 结构 来 组 织 ， 并 试图 捕 提 所 有 以 相同 的 位 密度 存储 的 扇 区 。 因 
此 ,顺序 的 块 可 能 会 处 于 不 同 的 磁道 上 。 我 们 将 会 在 图 6- 19 中 看 到 这 种 基于 传统 的 扇 区 - 
磁道 - 柱 面 模型 的 磁盘 的 缺陷 。 


加 ATA (Advanced Technology Attachment) ;在 PC 中 很 流行 的 一 种 被 用 作 IO 设备 标准 的 指令 集 。 
SS SCSI (Small Computer Systems Interface) : 一 种 IO 设备 的 标准 指令 集 。 
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图 6-4 直径 从 14 英寸 减 到 1. 8 英寸 的 6 种 磁盘 

图 中 的 磁盘 是 十 几 年 以 前 推出 的 ， 因 此 并 不 指望 代表 同 斥 二 
现代 磁盘 的 最 好 性 能 。 然 而 这 幅 图 精确 地 描绘 了 它们 的 相对 物 
理 尺 寸 。 最 大 的 磁盘 是 DEC 公司 的 R81， 配 有 4 张 直径 为 14 闫 
寸 的 盘 片 ， 存 储 容量 为 456 MB ， 于 1985 年 制造 。 直 径 8 英寸 的 
磁盘 来 自 日 本 富士 通 公 司 ， 这 种 1984 年 出 品 的 磁盘 在 6 张 盘 片 
上 存储 了 130 MB 的 容量 。Micropolis 公司 的 RD53 有 5 张 5.25 英 
寸 的 盘 片 ， 存 储 容量 为 85 MB。IBM 公司 的 0361 也 有 5 张 盘 片 ， 
但 是 它们 的 直径 只 有 3.5 英寸 。 这 种 1988 年 的 磁盘 容量 为 320 
MB。 在 2008 年 ， 密 度 最 高 的 3. 5 英寸 磁盘 有 2 张 3.5 英寸 的 盘 
片 ， 磁 盘 容 量 为 1TB ， 以 相同 的 空间 ， 在 密度 上 提高 了 3000 倍 ! 
Conner CP 2045 具有 2 个 2.5 英寸 的 盘 片 ， 具 有 40 MB 容量 ， 
1990 年 制造 。 图 中 最 小 的 磁盘 是 Integral 公司 的 1820。 这 种 1.8 
英寸 的 单 片 磁盘 容量 为 20 MB ，1992 年 制造 。 


精 解 : 这 些 高 级 接口 允许 磁盘 控制 器 带 有 内 置 的 缓存 。 最 近 的 因 CPU 请 求 而 传送 的 数据 可 以 保存 在 组 
存 中 ， 以 便 再 次 访问 时 获得 更 快 的 存 取 速 度 。 这 种 磁盘 采用 写 直 达 策 略 ， 这 样 写 缺 失 时 不 需要 更 新 数据 ， 
同时 带 有 预 取 算法 用 于 预测 请 求 。 控 制 器 也 使 用 一 个 指令 队列 ， 人 允许 磁盘 来 决定 执行 这 些 指令 的 顺序 ， 以 
便 在 得 到 正确 行为 的 前 提 下 达到 最 大 的 性 能 。 当 然 ， 当 比较 磁盘 的 性 能 时 ， 这 种 特点 使 得 测量 磁盘 性 能 的 
工作 变 得 更 为 复杂 ， 也 使 得 工作 负载 的 选择 越发 重要 。 
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6-5 2008 年 产 自 同一 厂商 的 4 种 型 号 磁盘 的 特性 

左边 3 个 磁盘 用 于 服务 器 和 台式 机 ， 最 右边 的 用 于 笔记 本 电脑 。 注 意 ， 第 三 个 磁盘 的 直径 仅 有 2.5 英寸 ， 
但 它 是 高 性 能 的 磁盘 ， 具 有 最 高 的 可 靠 性 和 最 快 的 寻 道 时 间 。 这 里 展示 的 磁盘 或 者 具有 SCSI (SAS) 接口 
(用 于 多 种 系统 的 标准 LO 总 线 ) ， 或 者 具有 ATA (SATA) 接口 (用 于 PC 机 的 标准 VO 总 线 ) 。 缓 存 的 传输 
率 比 磁盘 盘面 的 传输 率 快 3 ~5 倍 。SATA 的 3. 5 英寸 磁盘 每 GB 的 价格 低廉 的 主要 原因 是 PC 市 场 的 高 强度 竞 
争 。 但 SATA 在 传输 率 上 与 SAI 存在 很 大 差距 ， 因 为 SAS 具有 更 快 的 转速 和 寻 道 时 间 。 这 些 磁 盘 的 服务 时 间 
是 5 年。 注意 ， 这 里 的 MTTF 是 假定 在 正常 功 耗 和 温度 环境 下 的 值 。 如 果 温 度 和 和 震动 没有 很 好 地 控制 ， 磁 盘 
的 寿命 将 大 幅 缩 短 。 在 www.seagate.com 网 站 可 以 得 到 关于 这 些 磁盘 更 多 的 信息 。 


2008 年 的 售 价 ， 美 元 /GB 
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小 测验 
以 下 关于 磁盘 的 说 法 ， 哪 一 个 是 对 的 ? 
A. 3.5 英寸 的 磁盘 会 比 2.5 英寸 的 磁盘 每 秒 钟 执行 更 多 的 VO 操作 (吞吐 率 大 )。 
B. 2. 5 英寸 的 磁盘 每 瓦 功 耗 提供 最 高 的 数据 率 。 
C. 对 于 一 个 高 容量 的 磁盘 ， 顺 序 地 读 其 内 容 将 需要 好 几 个 小 时 。 
D. 对 于 一 个 使 用 具有 512 字 节 刷 区 的 随机 扇 区 磁盘 来 说 ， 读 数据 需要 好 几 个 月 。 


6.4 和 快 内 式 存 储 器 

有 很 多 取代 磁盘 技术 的 发 明 ， 但 是 不 幸 都 失败 了 : CCD 内 存 、 磁 泡 存 储 器 、 全 息 存 储 器 都 
曾 如 此 。 每 次 当 一 种 新 的 技术 即将 推出 时 ， 磁 盘 技术 总 是 按照 早 就 期 望 的 那样 取得 技术 上 的 飞 
跃 ， 造 价 相 应 下 降 ， 使 与 之 竞争 的 产品 变 得 在 市 场 上 不 具备 吸引 力 。 

第 一 种 成 气候 的 挑战 者 是 快 闪 式 存储 器 (flash storage) 。 这 种 半导体 存储 器 和 磁盘 一 样 是 非 
易 失 性 的 ， 但 是 延 时 却 只 是 磁盘 的 1%o ~ 1% ，、 而 旦 它 尺 寸 小 ， 功 耗 低 ， 杭 震 性 更 好 。 同 样 重要 
的 是 ， 由 于 快 内 式 存储 器 在 移动 电话 、 数 码 相机 、MP3 播放 器 中 被 大 量 应 用 ， 于 是 就 市 场 来 说 ， 
值得 投入 财力 推动 快 闪 式 存储 器 技术 的 发 展 。 最 近 ， 快 闪 式 存储 器 的 价格 每 年 每 GB 下 降 近 
50% 。 在 2008 年 ,每 GB 的 快 内 式 存 储 器 的 价格 降 到 了 4 ~ 10 美元 , 或 者 说 大 概 比 磁盘 贵 2 ~40 
倍 ， 是 DRAM 价钱 的 1/5 ~1/10。 图 6-6 将 三 类 基于 快 闪 式 存储 器 的 产品 做 了 比较 。 


Ringston 





& Dijuita] Transend Type I RIDATA 
SecureDigital 1 四 
# | Compacthlash | Solid State Disk 


{SD) : 人 和 人 
| a TSI6GCFL33 2.5 英 计 SATA 
SD4-8 GB | z 类 可 


(6) | ss | 6 | ， 
9 娄 | 5 
TITTOIRTY 


84 GB/ 英 寸 51 GB/ 英 寸 3 8 CB/ 英 寸 ; 

CGB/ 英寸,，GB/W ， ? ， 
半生 12 GB/W 24 GB/W 16 GB/W 

最 高 售 价 (2008) ~30 美元 ~70 美元 ~300 美元 


图 6-6 三 类 快 闪 式 存储 器 产品 特性 的 比较 
CompactFlash 标准 封装 是 1994 年 Sandisk 公司 为 便携 式 PC 的 PCMCIA- ATA 卡 而 推出 的 。 因 为 遵循 ATA 接 

口 ， 它 模拟 了 一 个 磁盘 的 接口 ， 包 括 寻 道 指令 、 逻 辑 磁 道 等 。RiDATA 产品 模拟 SATA 的 2.5 英寸 接口 。 

尽管 每 GB 快 内 式 存储 器 的 价格 比 磁 盘 要 贵 ， 移动 设备 中 快 内 式 存 储 器 还 是 很 受 欢迎 的 ， 部 
分 原因 在 于 它 的 尺寸 小 。 导 致 的 结果 是 ， 直 径 为 1 英寸 的 磁盘 从 一 些 租 入 式 市 场 上 消失 了 。 例 
如 ，2008 年 Apple iPod Shuffle 的 具有 1 GB 容量 的 MP3 播放 器 售 价 为 50 美元 ， 同 时 最 小 的 具有 
4 GB 容量 的 磁盘 售 价 比 它 还 要 贵 。 

快 内 式 存储 器 是 一 种 电 可 擦 写 、 可 编程 的 只 读 存储 器 (EEPROM) , .第 一 种 快 闪 式 存储 器 被 
称 作 NOR 快 闪 式 存储 器 ， 因 为 它 的 存储 单元 和 -一 个 标准 的 或 非 门 很 相似 ， 成 为 其 他 EEPROM 存 
储 带 的 直接 竞争 者 并 且 像 所 有 的 存储 器 一 样 ， 是 可 随机 寻 址 的 。 几 年 后 ，NAND 快 闪 式 存储 器 具 
备 更 高 的 存储 密度 ， 但 是 存储 器 仅仅 能 够 以 块 的 形式 被 读 写 ， 因 为 那些 为 随机 访问 而 设计 的 线 
锌 去 择 了 。NAND 快 闪 式 存储 器 的 每 个 GB 相当 便宜 ， 因 而 比 NOR 快 办 式 存 储 器 更 受 欢迎 。 





特性 
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6-6 中 的 所 有 产品 都 是 使 用 的 NAND 快 内 式 存储 器 。 图 6-7 比较 了 NOR 和 NAND 快 闪 式 存储 器 
的 关键 特性 。 










”特性 :NOR 决 内 式 存储 器 ”NAND 快 内 式 存储 器 
最 小 的 访问 规模 〈 字 节 ) | 512 字 节 | 2048 字 节 
最 高 售 价 (28) | 6 关 元 | 4 关 元 | 







6-7 ”比较 2008 年 间 NOR 和 NAND 快 闪 式 存储 器 的 特性 
无 论 它 们 的 访问 规模 如 何 ， 这 些 器 件 都 可 以 按 字 节 和 16 位 字 进 行 读 操作 。 

与 磁盘 和 DRAM 不 同 ， 但 类 似 别 的 EEPROM 技术 ， 快 关 式 存储 器 的 位 可 能 会 被 用 坏 ( 见 
图 6-7) 。 为 了 应 对 这 种 局 限 性 ， 大 多 数 NAND 快 内 式 存储 器 产品 使 用 一 个 控制 器 采用 重 映 射 块 
来 分 布 写 操 作 ， 目 的 是 将 写 次 数 多 的 块 转 移 到 写 次 数 少 的 块 。 这 项 技术 被 称 作 磨损 测量 〈wear 
leveling) 。 使 用 该 技术 ， 移 动 电话 、 数 码 相机 、MP3 播放 器 或 者 密码 独 (memory key) 这 样 的 消 
费 类 产品 就 不 太 可 能 超过 人 快 闪 式 存储 器 的 写 限 制 。 这 种 控制 器 降低 了 快 闪 式 存储 器 的 潜在 性 能 
但 确实 必要 ， 除 非 采 用 高 层 软件 监控 块 的 磨损 。 然 而 ， 控 制 器 也 能 通过 屏 项 那些 在 制造 中 损坏 的 
存储 单元 来 提高 产品 的 良好 率 。 

写 限制 是 快 办 式 存储 器 在 桌面 系统 以 及 服务 器 中 使 用 不 广泛 的 一 个 原因 。 然 而 在 2008 年 ， 
销售 了 第 一 批 采用 快 闪 式 存储 器 替代 硬盘 的 笔记 本 电脑 ， 它 们 尺寸 更 小 、 电 池 时 间 更 长 、 启 动 时 
间 更 快 ， 且 价格 相当 实惠 。 如 图 6-6 所 示 ， 快 闪 式 存储 器 也 成 为 标准 磁盘 的 一 部 分 。 结 合 两 种 思 
路 ， 混 合 硬盘 可 包括 一 个 GB 级 的 快 闪 式 存储 器 ， 这 样 笔记 本 电脑 就 可 以 更 快 地 启动 ， 而 且 通 过 
让 磁盘 更 多 地 保持 空闲 而 节省 能 量 。 

未 来 几 年 ， 快 内 式 存储 器 将 在 很 多 基于 电池 供电 的 设备 中 战胜 磁盘 。 随 着 容量 的 增加 ， 以 及 
价格 的 持续 下 降 ， 也 许 会 看 到 快 内 式 存储 器 在 桌面 系统 和 服务 器 市 场 中 因为 高 性 能 和 低 功 耗 而 
取得 机 会 。 

小 测验 
关于 快 办 式 存 储 嚣 ， 下 面 哪些 说 法 是 正确 的 ? 
A. 和 DRAM 一 样 ， 快 内 式 存 储 器 也 是 一 种 半导体 存储 器 。 
B. 和 磁盘 一 样 ， 如 果 掉 电 ， 快 闪 式 存储 器 不 会 丢失 信息 。 
C. NOR 快 内 式 存储 器 读数 据 的 访问 时 间 和 DRAM 差不多 。 
D. NAND 快 闪 式 存储 器 的 读 带 宽 和 磁盘 的 差不多 。 


6. 5 连接 处 理 器 、 内 存 以 及 I/O 设备 


在 计算 机 系统 中 ， 不 同 的 子 系统 必须 具备 连接 其 他 子 系统 的 接口 。 例 如 ， 内 存 和 处 理 器 需要 通 
信 ， 同 样 ， 处 理 器 和 10 设备 也 需要 通信 。 多 年 以 来 ， 这 些 工作 都 是 由 总 线 来 扯 当 的 。 总 线 是 一 种 
共享 的 通信 和 链接 ， 它 使 用 一 组 连 线 来 连接 多 个 子 系统 。 总 线 结构 的 两 个 主要 优点 是 功能 多 和 成 本 
低 。 通 过 定义 一 种 互联 方案 ,新 的 设备 就 很 容易 被 添加 进来 ， 外 围 设备 也 可 以 在 使 用 同类 总 线 的 计 
算 机 系统 之 间 移 动 。 而 且 ， 因 为 同一 组 连 线 被 多 个 通信 路 径 共享 ， 所 以 总 线 具 备 较 好 的 成 本 效益 。 

已 线 的 主要 缺点 是 它 会 产生 通信 瓶颈 ， 这 就 限制 了 WO 设备 的 最 大 吞吐 量 。 当 IO 数据 传输 
必须 通过 一 个 总 线 时 ， 这 条 总 线 的 带宽 就 会 限制 VO 的 最 大 吞吐 量 。 设 计 一 个 能 够 满足 处 理 器 的 
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了 要求， 又 能 够 连接 大 量 的 IO 设备 的 总 线 系统 是 一 个 巨大 的 挑战 。 

传统 上 总 线 被 划分 为 处 理 器 - 内 存 总 线 - 和 0 总 线 ， 处 理 器 - 内 存 总 线 比 较 短 ， 通 常 是 高 
速 总 线 ， 用 来 连接 内 存 系统 以 便 得 到 最 大 的 内 存 - 处理 器 带宽 。 相 反 ，LO 总 线 比 较 长 ， 可 以 在 
其 上 挂 接 多 种 类 型 的 设备 ， 而 旦 各 类 设备 的 数据 带宽 差异 很 大 。LO 总 线 通常 不 会 直接 连接 内 
存 ， 而 是 要 人 么 通过 处 理 器 - 内 存 总 线 ， 要 么 通过 底板 总 线 来 使 用 内 存 。 其 他 总 线 如 图 形 总 线 ， 
因为 特殊 的 功能 而 具备 不 同 的 特性 。 

总 线 的 设计 非常 困难 的 原因 之 一 是 最 高 总 线 速度 在 很 大 程度 上 被 物理 因素 所 限制 : 总 线 的 
长 度 和 设备 的 数量 。 这 些 物 理 上 的 限制 使 得 我 们 不 能 以 任意 快 的 速度 运行 总 线 。 原 因 之 二 ， 为 了 
支持 一 系列 延 时 和 数据 传输 率 各 不 相同 的 设备 也 使 得 总 线 的 设计 极 富 挑战 性 。 

由 于 时 钟 偏 斜 (clock skew) ， 以 及 信号 反射 的 问题 〈( 见 光盘 中 的 附录 C) ， 高 速 的 并 行 线路 
很 难 实现 ， 工 业界 从 并 行 的 共享 总 线 转变 到 带 开关 的 点 对 点 高 速 串 行 互 联 。 这 样 的 IO 网 络 正在 
逐渐 替代 系统 中 的 YO 总 线 。 

由 于 这 种 转变 的 出 现 ， 本 节 在 这 一 版 的 修订 中 ， 强 调 了 连接 WO 设备 、 处 理 器 以 及 内 存 的 基 
本 问题 ， 而 不 再 仅仅 关心 总 线 。 


6. 5. 1 互联 基础 


我 们 来 考虑 一 个 典型 的 LO 事务 ”。 一 个 事务 包括 两 个 部 分 : 发 送 地 址 和 接收 /发 送 数据 。 
总 线 事务 的 界定 取决 于 对 内 存 所 进行 的 操作 。 读 事务 是 从 内 存 传 出 数据 (或 者 到 处 理 器 或 者 到 
一 个 0 设备 ); 写 事务 则 是 向 内 存 写 人 数据 。 为 了 避免 歧义 ， 我 们 使 用 输入 和 输出 两 个 术语 ， 
它们 从 处 理 器 的 角度 来 定义 ; 一 次 输入 操作 指 的 是 从 设备 输入 数据 到 内 在 ， 使 得 处 理 器 可 以 读 
取 ; 而 一 次 输出 操作 是 指 把 处 理 器 写 到 内 存 的 数据 输出 到 设备 。 

0 互联 总 线 是 一 种 扩展 机 器 和 连接 新 外 设 的 途径 。 为 了 简便 起 见 ， 计 算 机 业界 发 明了 几 套 
标准 。 这 些 标 准 作为 一 种 规格 为 计算 机 制造 商 和 外 围 设备 制造 商 提供 了 操作 规范 。 对 于 计算 机 
设计 者 ， 标 准 保证 了 外 设 对 于 新 的 机 器 是 可 用 的 。 而 日 ， 标准 使 得 外 围 设备 建造 者 相信 用 户 能 够 
将 新 设备 挂 接 到 计算 机 系统 中 。 图 6-8 总 结 了 五 种 流行 的 VO 标准 的 关键 特性 ， Firewire, USB, 
PCI Express (PCIe) ， 串 行 ATA (SATA) ， 串 行 连接 的 SCSI 《SAS)。 它们 把 各 种 外 设 连接 到 台式 
机 上 ， 如 键盘 、 相 机 和 磁盘 等 。 

传统 的 总 线 是 同步 的 ”， 这 就 意味 着 总 线 的 控制 线 中 包含 了 一 个 时 钟 ， 以 及 一 个 和 时 钟 相 关 
的 固定 的 通信 协议 。 例 如 ， 处 理 器 - 内 存 总 线 为 了 执行 读 内 存 操 作 ， 需 要 在 第 -一 个 时 钟 周期 传输 
地 址 和 读 操 作 指 令 ， 并 且 使 用 控制 线 来 指明 请 求 的 类 型 。 内 存 可 能 被 要 求 在 第 五 个 时 钟 周期 以 
提供 数据 字 的 方式 来 做 出 响应 。 这 种 类 型 的 协议 使 用 小 型 的 有 限 状 态 机 很 容易 实现 。 由 于 这 种 
协议 是 预先 确定 的 ， 涉 及 很 少 的 控制 逻辑 ， 总 线 可 以 运行 得 很 快 而 且 接 口上 的 逻辑 电路 也 会 很 
小 。 然 而 ， 同 步 总 线 有 两 大 缺点 : 第 一 ， 总 线 上 的 每 个 设备 必须 按照 相同 的 时 钟 频率 运行 ， 第 
一 ， 由 于 时 钟 偏 任 (skew) ， 如 果 总 线 相 当 快 的 话 ， 总 线 不 能 做 得 太 长 ( 见 光盘 中 的 附录 C) 。 

这 些 问 题 导 致 了 异步 互联 的 产生 ， 这 样 的 互联 不 需要 时 钟 ， 由 于 它们 没有 时 钟 ， 所 以 异步 
总 线 可 以 满足 很 多 不 同 设备 的 需要 ， 而 且 异 步 总 线 可 以 延长 ， 而 不 用 担心 时 钟 偏 斜 (skew) 或 





生理 蘑 -内存 总 线 《Prooeesor memory bus) ， 连 接 处 理 器 和 内 存 的 总 线 。 通 常 比较 短 ， 速 度 高 ， 和 内 存 系统 匹 醒 ， 这 从 
可 以 使 得 处 理 器 和 内 存 间 的 带宽 达到 最 大 。 

底板 总 线 (backplane bus) ， 一 个 用 来 连接 处 理 器 、 内 存 和 1/O 设备 的 单一 总 线 。 

LO 事务 (1/O transaction ) ， 在 一 个 互联 上 的 一 系列 操作 ， 包含 了 一 个 请 求 以 及 可 能 的 回答 ， 它 们 均 可 能 包含 数 
据 。 一 个 事务 由 一 个 请 求 发 起 ， 可 能 包含 很 多 独立 的 总 线 操 作 。 

同步 总 线 (synchronous bus) ; 这 样 的 总 线 的 控制 线 中 包含 了 时 钟 信号 ， 以 及 依赖 这 个 时 钟 的 固定 通信 协议 。 

罩 步 互联 (asynchronous intereonneet) ;使 用 一 个 握手 协议 来 协调 而 不 用 时 钟 ， 可 以 适应 速度 相 异 的 不 同 设 名 。 


B® PDO 0 
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者 其 他 的 同步 问题 。 所 有 图 6-8 中 的 例子 都 是 异步 的 。 


Firewire (1394] USB 2.9 | PCI Express | 串 行 ATA | 串 行 连接 的 SCSI 


每 通道 的 到 和 
基本 数据 红袖 度 《 信 避 吉 


理论 上 的 峰值 带宽 300 MB/s 





图 6-8 五 种 领域 的 I/O 标准 的 关键 特性 
这 些 总 线 标准 可 用 于 计算 机 之 间 的 互联 电缆 ， 或 者 是 计算 机 内 部 的 互联 短线 ， 或 者 是 印 制 电路 板 上 的 互联 。 
PCIe 可 以 支持 同时 的 读 和 写 ， 所 以 一 些 出 版 物 在 假定 读 和 写 带 宽 各 半 的 情况 下 把 它 的 带宽 加 倍 。 
为 了 协调 发 送 者 和 接收 者 之 间 的 数据 传输 ， 异 步 总 线 采 用 握手 协议 ?。 握 手 协 议 由 一 系列 步 
又 组 成 ， 只 有 当 发 送 者 和 接收 者 之 间 达 成 一 致 才能 进行 下 一 步 。 这 种 协议 通过 一 套 附加 的 控制 
线路 来 实现 。 


人 的 VO 本 ke 















图 6-9 展示 的 是 一 个 传统 的 PC 的 IO HB DDR2 667 rr 并 
系统 。 处 理 器 通过 两 个 主要 的 芯片 来 连接 (53GB/s) | 让 在 过 机 淆 | Cex16 (or2PClex8) 
外 设 。 处 理 器 旁边 的 那 块 芯片 就 是 内 存 控 | 主 存储 器 一 一 一 | 集线器 
制 器 集线器 ,通常 称 为 北桥 (north -一 so00P 
bridge) ， 另 一 块 与 之 相连 的 就 是 VO 控制 ” 一 ~、 申 行 ATA Cas 
器 集线器 ， 称 为 南 桥 (south bridge) 。 (300 MB/s) .4 

AN 

北桥 本 质 上 是 一 个 DMA 控制 器 ， 把 ”| GaB/s) 
处 理 器 连接 到 内 存 、 图 形 卡 和 南 桥 芯 片 。 [一 bo 
南 桥 将 北桥 和 各 种 LO 总 线 连 接 。Intel、 一 a 
AMD、NVIDIA 以 及 其 他 公司 提供 了 很 多 0 控制 器 集线器 (1GBA) 
将 处 理 器 和 外 界 连接 起 来 的 芯片 组 。 全 站 一 | PC 直人 

6- 10 展示 了 三 个 芯片 组 的 例子 。 ™ (60 MB/s) 并 行 ATA 


注意 ，AMD 处 理 器 的 Opteron 版 本 及 其 后 (100 MB/s) 
续 产 品 包含 了 北桥 芯片 。 因 此 外 部 世界 连 -_ ES 
接 到 处 理 器 上 的 芯片 的 数量 减少 了 。 6-9 使 用 Intel 5000P 芯片 组 的 Intel 服务 器 的 


随 着 摩尔 定律 的 延续 ， 很 多 IO 控制 VO 系统 的 结构 
器 曾经 作为 连接 到 IO 总 线 的 可 选 卡 ， 如 如 果 假 定 读 操作 和 写 操作 各 自 占有 一 半 的 通信 和 量 ， 


可 以 在 PCle 中 得 到 双 倍 的 带宽 。 
今 已 经 被 集成 到 芯片 组 中 。 例 如 ，AMD 


的 Opteron X4 处 理 器 和 Intel 的 Nehalem 处 理 器 内 部 包含 了 北桥 ， 而 且 Intel 975 处 理 器 的 南 桥 芯片 
包含 了 一 个 RAID 控制 器 ( 见 6.9 节 )。 


名 ”握手 协议 (hand shaking protocol ) : 是 为 了 协调 异步 总 线 传输 而 使 用 的 -系列 步 又， 在 这 些 步骤 中 ， 发 送 考 和 
受 者 只 有 在 当 彼此 都 对 当前 的 步 又 确认 时 ， 才 可 以 进行 下 一 个 步 又 。 了 人 
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-= | ae ] AMD 580X 
] Intel $000P 芯片 组 ] Intel 975X 芯片 组 人 
| $ 


EECTE3NEEIECZEZTI 
TIEIT 


大通 度 | DDiZ FHDIMM 0077533 | 
LERRMR ”| ”是 


1 PCIe x 16 或 者 
PCIe/ 外 部 图 形 接口 2 PCle x8 2 PCle x8 


南 桥 接口 PCIe x8, ESI PCie x8 


LO 控制 器 集线器 (“ 南 桥 ”) 





是 
6-10 来 自 Intel 和 AMD 的 两 组 |/O 芯片 组 


注意 ， 北 桥 功 能 包含 在 AMD 的 微 处 理 器 中 ， 就 像 Intel Nehalem 处 理 器 那样 。 


WO 互联 提供 了 0 设备 、 处 理 器 和 内 存 之 间 的 电气 互联 ， 同 时 定义 了 最 低级 的 通信 协议 。 
在 这 个 基础 上 ， 必 须 定 义 硬 件 和 软件 协议 ， 用 来 控制 LO 设备 和 内 存 之 间 的 数据 传输 ， 详 细 说 明 
处 理 器 给 IO 设备 发 出 的 命令 。 这 些 主题 将 在 下 一 节 中 阐述 。 
小 测验 | 

网 络 和 总 线 都 可 以 把 组 件 连接 在 一 起 。 下 列 关于 它们 的 说 法 中 哪些 是 正确 的 ? 

A. 0 网 络 和 LO 总 线 几乎 总 是 标准 化 的 。 

B. IO 网 络 和 IO 总 线 几 乎 总 是 同步 的 。 


6. 6 为 处 理 器 、 内 存 和 操作 系统 提供 |/O 设备 接口 


总 线 或 者 网 络 协议 定义 一 个 字 或 者 数据 块 在 一 组 线路 上 应 当 如 何 通信 。 为 了 能 把 数据 从 -- 
个 设备 传输 到 用 户 程序 的 内 存 地 址 空间 ， 还 必须 执行 其 他 几 个 任务 。 本 节 主 要 讨论 这 些 任务 ， 并 
且 回 答 如 下 问题 : 

。 如 何 将 用 户 的 VO 请 求 转换 成 设备 指令 并 和 该 设备 进行 通信 ? 
数据 到 底 是 如 何 从 内 存单 元 输入 输出 的 ? 
操作 系统 扮演 的 是 什么 角色 ? 
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在 回答 这 些 问 题 的 过 程 中 ， 我 们 会 了 解 到 操作 系统 在 处 理 LO 操作 中 扮演 主要 角色 ， 它 是 请 
求 VO 操作 的 程序 和 硬件 之 间 的 接口 。 
操作 系统 的 职责 由 LO 系统 的 三 个 特性 决定 : 
1) 多 个 程序 通过 使 用 处 理 器 来 共享 VO 系统 。 
2) LO 系统 通常 使 用 中 断 〈 外 部 产生 的 异常 ) 来 传输 和 IO 操作 有 关 的 信息 。 因 为 中 断 导 
致 向 内 核 态 或 超级 用 户 态 的 转变 ， 中 断 必 须 由 操作 系统 (05) 来 处 理 。 
3) LO 设备 的 低级 控制 相当 复杂 ， 因 为 它 需要 管理 一 组 并 发 事件 ， 而 且 正 确 的 设备 控制 通 
常 具有 非常 详细 的 需求 。 
_ 硬 件 软件 接口 ， 
以 上 列 出 的 VO 系统 的 三 个 特性 导致 OS 必须 提供 以 下 几 种 不 同 的 功能 : 
® OS 要 保证 用 户 程序 只 能 访问 IO 设备 中 用 户 有 权力 访问 的 那个 部 分 。 如 果 某 个 文件 的 所 
有 者 没有 给 某 个 程序 访问 权 ，0OS 不 允许 该 程序 对 磁盘 上 的 这 个 文件 进行 读 或 者 写 操作 。 
在 一 个 有 共享 IO 设备 的 系统 中 ,如 果 用 户 程序 能 够 直接 执行 WO 操作 ， 那 么 就 没有 办 
法 提供 这 种 保护 了 。 
。 OS 通过 提供 处 理 低级 设备 操作 的 例 程 为 访问 设备 提供 一 种 抽象 。 
。 OS 就 像 它 处 理 一 个 程序 产生 的 异常 一 样 ， 处 理由 IO 设备 产生 的 中 断 。 
。 OS 设法 对 共享 的 LO 资源 提供 公平 的 访问 ， 为 了 提高 系统 吞吐 量 而 对 访问 进行 调度 。 
为 了 代表 用 户 程序 实现 这 些 功能 ， 操 作 系统 必须 能 够 与 IO 设备 通信 并 且 阻 止 用 户 程序 直接 
与 IO 设备 通信 。 这 要 求实 现 以 下 三 类 通信 、: 
1) OS 必须 能 给 IO 设备 提供 指令 。 这 些 指令 不 但 包括 像 读 和 写 这 样 的 操作 ， 而 且 包 括 像 磁 
-一 寻 道 之 类 的 其 他 设备 操作 。 
2) 当 LAO 设备 已 经 完成 一 个 操作 或 者 遇 到 一 个 错误 时 它 必 须 能 够 通知 0S。 例 如 ， 当 磁盘 完 
成 一 次 寻 道 时 ， 它 就 会 通知 0S。 
3) 数据 必须 能 在 内 存 和 1O 设备 之 间 传 输 。 例 如 ， 从 磁盘 中 读 取 的 数据 块 必须 能 够 传送 到 
内 存 中 去 。 
在 接 下 来 的 几 节 中 ， 我们 将 看 到 这 些 通 信 是 如 何 实现 的 。 


6.6.1 给 VO 设备 发 送 指令 


为 了 给 VO 设备 发 送 命令 ,处 理 器 必须 能 够 守 址 这 个 设备 并 且 能 提供 一 个 或 者 多 个 命令 字 。 
有 两 种 方法 用 来 寻 址 设备 :内 存 映射 IO 和 特殊 IO 指令 。 在 内 存 映射 MOS 中， 地 址 空间 的 一 
部 分 分 配给 0 设备 。 对 这 些 地 址 的 读 和 写 被 解释 成 0 设备 的 指令 。 

例如 ， 写 操作 能 用 来 向 VO 设备 发 送 数 据 ， 在 这 种 情形 下 ， 这 个 数据 将 被 解释 成 一 个 命令 。 
当 处 理 器 把 地 址 和 数据 放 到 内 存 总 线 上 时 ， 内 存 系统 将 忽略 这 个 操作 ， 因 为 这 个 地 址 指明 了 这 
个 内存 空间 的 部 分 是 用 于 0 的 。 但 是 设备 控制 器 识别 这 个 操作 ， 会 把 数据 记录 下 来 ， 并 把 它 作 
为 命令 传送 到 设备 中 。 用 户 程序 不 能 直接 发 布 /O 操作 ， 因 为 0S 没有 为 分 配给 IO 设备 的 地 址 
空间 提供 访问 权限 ， 因 此 这 些 地 址 就 能 受到 地 址 变换 机 制 的 保护 。 内 存 映 射 0 也 能 够 通过 对 先 
定 地 址 的 写 或 者 读 操作 来 传输 数据 。 设 备 使 用 地 址 来 确定 命令 的 类 型 ， 而 且 数 据 可 以 由 一 个 写 
澡 作 提供 或 者 由 一 个 读 操作 获得 。 不 管 在 哪 种 情况 下 ， 这 些 地 址 的 编码 包含 设备 标识 、 处 理 器 和 
设备 之 间 的 传输 类 型 。 


〇 ”内 存 映射 WO (memory-mapped 0) : 一 种 IO 策略 ， 地 址 空间 的 一 部 分 被 分 配给 0 设备 ， 而 且 读 和 写 这 些 地 
址 被 解释 为 VO 设备 的 指令 。 
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为 了 完成 一 个 程序 的 请 求 ， 执 行 数 据 的 读 或 者 写 操 作 通 常 需要 几 个 独立 的 IO 操作 。 此 外 ， 
处 理 器 可 能 不 得 不 在 这 些 独 立 的 指令 之 间 执 行 询 问 设备 的 状态 的 操作 ， 目 的 是 确定 指令 是 否 成 
功 完 成 。 例 如 ， 一 台 简 单 的 打印 机 有 两 个 IO 设备 寄存 器 一 一 个 用 来 存储 状态 信息 ， 另 一 个 用 
来 存储 被 打印 的 数据 。 状 态 寄 存 器 包括 一 个 完成 位 〈done bit) ， 每 打印 完 一 个 字符 ， 这 个 位 由 打 
印 机 负责 设置 ; 还 有 一 个 错误 位 (error bit) ， 用 来 指明 打印 机 被 阻塞 或 者 缺 纸 。 要 打印 的 每 一 个 
字 节 都 存放 在 数据 寄存 器 。 处 理 器 必须 等 到 打印 机 设置 好 完成 位 ， 才 能 把 下 一 个 字符 存放 到 组 
和 存 区 。 处 理 器 还 必须 检查 错误 位 以 便 确定 是 否 出 现 了 问题 。 每 一 个 这 样 的 操作 都 需要 一 个 单独 
的 VO 设备 访问 。 

精 解 .代替 内 存 映射 VO 的 另 一 种 方法 是 在 处 理 器 中 采用 专用 的 IO 指令 929。 这些 IO 指令 能 够 指 
定 设 备 号 以 及 命令 字 (或 者 命令 字 在 内 存 中 的 位 置 ) 。 处 理 器 和 设备 通过 一 组 VO 总 线 的 线路 来 
实现 通信 。 实 际 的 命令 能 够 在 总 线 的 数据 线 土 传输 。 带 有 IO 指令 的 计算 机 例子 是 Intel x86 和 
IBM 370 计算 机 。 通 过 规定 在 非 内 核 态 或 非 管 态 下 执行 的 0 指令 非法 而 实 达 到 阻止 用 户 程序 直 
接 访问 设备 的 目的 。 


6. 6. 2 与 处 理 器 通信 


如 上 面 的 例子 ， 处理 器 通过 周期 性 地 检查 状态 位 以 便 决定 能 否 执 行 下 一 个 LO 操作 ， 这 个 方 
法 被 称 为 轮 询 “。 轮 询 是 VO 设备 与 处 理 器 通信 的 最 简单 方式 。1/O 设备 把 信息 放 到 一 个 状态 寄 
存 融 中 ， 人 处 理 器 必须 访问 而 获得 这 个 信息 。 处 理 器 完全 控制 和 执行 所 有 工作 。 

轮 询 以 几 种 不 同 的 方式 使 用 。 实 时 伐 人 式 应 用 使 用 轮 询 ， 因 为 其 0 的 速度 是 预定 的 ，I/0 
开销 更 容易 预测 ， 从 而 对 实时 有 帮助 。 我 们 将 看 到 ， 即 使 VO 速率 在 某 种 程度 上 稍 高 一 些 ， 仍 然 
可 以 使 用 轮 询 。 

轮 询 的 缺点 是 它 浪费 了 大 量 的 处 理 器 时 间 ， 因 为 处 理 器 的 速度 比 WO 设备 快 很 多 。 处 理 器 可 
能 已 经 读 取 状态 寄存 器 多 次 了 ， 却 发 现 设备 还 没有 完成 相对 较 慢 的 IO 操作 ， 或 者 自 上 次 轮 询 以 
来 鼠标 还 没有 移动 。 当 设备 完成 一 次 操作 时 ， 我 们 仍然 得 读 取 状 态 以 便 确 定 本 次 操作 是 否 成 功 。 

很 信 以 前 轮 询 接口 的 巨大 开销 就 引起 了 关注 ， 这 导致 了 “中 断 ” 的 发 明 。 中 断 用 来 通知 处 
理 稍 ， 何 时 0 设备 需要 处 理 器 的 注意 。 中 断 驱动 YOe 方 式 几乎 被 所 有 的 系统 使 用 ， 至 少 设备 
使 用 IO 中 断 通知 处 理 器 某 个 1/O 设备 需要 引起 注意 。 当 一 个 设备 想 要 通知 处 理 器 它 已 经 党 成 了 
茶 种 操作 或 者 需要 引起 注意 时 ， 这 件 事 就 会 引起 处 理 器 中 断 。 

一 个 0 中 断 类 似 于 在 第 4 章 和 第 5 章 中 见 到 的 异常 ， 但 是 有 两 点 重要 的 区 别 : 

1) 对 指令 执行 来 说 ,LO 中 断 是 异步 的 。 也 就 是 说 ， 中 断 与 任何 指令 不 相关 ， 且 不 阻止 指 
令 的 执行 。 它 和 缺 页 中 断 或 者 算术 溢出 那样 的 异常 有 很 大 的 差别 。 我 们 的 控制 单元 仅仅 需要 在 
开始 执行 一 条 新 的 指令 时 检查 是 否 有 挂 起 的 VO 中 断 。 

2) 除了 VO 中 断 产生 之 外 ， 还 要 给 出 像 确认 哪个 设备 产生 的 中 断 这 类 更 进一步 的 信息 。 而 
且 ， 中断 所 代表 的 设备 有 不 同 的 优先 级 。 这 些 设备 的 中 断 请 求 具 备 不 同 的 紧急 程度 。 

为 了 向 处 理 器 传递 诸如 引起 中 断 的 设备 标识 这 类 信息 ， 系 统 采用 矢量 中 断 或 者 异常 原因 寄 
仔 句 。 当 处 理 器 确认 了 中 断 ， 设 备 就 把 中 断 矢 量 的 地 址 或 者 某 些 状态 域 发 送 给 异常 原因 寄存 器 . 
竺 果 ， 当 0S 取得 控制 权 之 后 ， 就 能 知道 引起 中 断 的 设备 标识 并 且 能 够 立即 查询 该 设备 。 中 断 初 
制 消除 了 处 理 器 轮 询 设备 的 需求 ， 从 而 使 得 处 理 器 能 集中 “精力 ”运行 程序 。 





日 VO 指令 《区 O instmetions): 一 种 专用 指令 ， 用 来 给 VO 设备 发 送 指令 ， 而 且 指定 了 设备 号 ， 以 及 指令 字 【或 
者 内 存 中 的 指令 字 的 地 址 。) 。 

© 轮 询 polling) : 周期 性 地 检查 LO 设备 的 状态 寄存 器 的 过 程 ， 目 的 是 确定 是 不 是 需要 为 设备 服务 。 

© 中 断 驱 动 VO (interupt- driven 0) : 一 种 VO 策略 ， 利 用 中 断 来 指示 处 理 器 菜 个 设备 需要 被 关注 、 
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6. 6.3 中断 优先 级 


为 了 对 付 VO 设备 的 不 同 优先 级 ， 大 多 数 中 断 机 制 拥有 多 个 优先 级 ; UNIX 操作 系统 使 用 
4 ~6 个 级 别 。 这 些 优 先 级 指明 了 处 理 器 处 理 中 断 的 顺序 。 内 部 产生 的 异常 和 外 部 的 VO 中 断 都 有 
优先 级 ; 通常 VO 中 断 优先 级 要 比 内 部 异常 低 。1O 中 断 优先 级 也 可 能 有 多 个 ， 速 度 越 高 的 设备 
拥有 越 高 的 优先 级 。 

为 了 支持 中 断 优先 级 ，MIPS 提供 了 操作 系统 实现 该 策略 的 原 语 ， 这 与 MIPS 处 理 TLB 缺失 
类 似 。 图 6-11 给 出 了 关键 寄存 器 ， 附 录 B. 7 中 给 出 了 细节 。 





分 支 延 迟 


图 6-11 原因 与 状态 寄存 器 
这 个 版 本 的 中 断 原因 寄存 器 对 应 的 是 MIPS-32 体系 结构 。 早 期 的 MIPS I 体系 结构 具有 3 组 嵌 套 的 核心 态 / 
用 户 和 中 断 允 许 位 ， 可 以 支持 中 断 媒 套 。 在 附录 B 的 B. 7 节 对 这 些 寄存 器 有 详细 的 介绍 。 


状态 寄存 器 决定 哪个 设备 能 中 断 计 算 机 。 如 果 中 断 允 许 位 〈interrupt enable bit) 为 0， 那 么 谁 
都 不 能 产生 中 断 ， 中 断 掩 码 域 (interrupt mask field) 给 出 了 更 加 细致 的 中 断 阻 塞 方案 。 原 因 寄存 器 
中 的 挂 起 中 断 域 (pending interrupt field) 的 每 一 位 ， 都 对 应 到 掩 码 域 中 的 一 位 。 要 允许 相应 的 中 
断 ， 掩 码 域 中 的 相应 位 必须 为 1。 一 旦 发 生 中 断 ， 操 作 系 统 可 以 从 状态 寄存 器 的 异常 编码 域 (ex- 
ception code field) 找 出 中 断 发 生 的 原因 ; 0 表示 中 断 发 生 ， 其 他 值 表示 第 5 章 提 及 的 异常 。 

下 面 是 处 理 中 断 必须 的 步 又 : 
”1) 对 挂 起 中 断 域 和 中 断 掩 码 域 做 逻辑 与 操作 ， 看 哪些 被 允许 的 中 断 发 生 了 。 用 mfc0 指令 获 
得 这 两 个 寄存 器 的 备份 。 

2) 在 这 些 中 断 中 选择 出 优先 级 比较 高 的 中 断 。 软 件 惯 例 是 最 左边 的 有 最 高 的 优先 级 。 

3) 保存 状态 寄存 器 的 中 断 掩 码 域 。 

4) 改写 中 断 掩 码 域 ， 屏 项 所 有 与 之 相等 或 更 低 优 先 级 的 中 断 。 

5) 保存 处 理 中 断 所 需 的 处 理 器 状态 。 

6) 为 了 允许 更 高 优先 级 的 中 断 发 生 ， 将 原因 寄存 器 的 中 断 人 允许 位 置 1 。 

7) 调用 适当 的 中 断 处理 例 程 ， 执 行 之 。 

8) 在 恢复 状态 前 ， 把 原因 寄存 器 的 中 断 允许 位 置 0， 这 便于 恢复 中 断 掩 码 域 。 

在 附录 B 中 展示 了 一 个 简单 VO 任务 的 异常 处 理 例 程 。 

中 断 优先 级 (interrupt priority level，IPL) 是 如 何 与 这 些 机 制 对 应 起 来 的 ? IPL 是 操作 系统 的 发 
明 。 它 保存 在 进程 的 内 存 中 ， 每 个 进程 都 被 赋予 一 个 IPL。 在 最 低 的 IPL 下 ， 人 允许 所 有 中 断 。 相 反 ， 
在 最 高 的 IPL 下 ， 则 阻止 所 有 中 斯 。 升 高 或 降低 IPL 涉及 状态 寄存 器 的 中 断 掩 码 域 的 改变 。 

精 解 : 挂 起 中 断 和 中 断 掩 码 域 的 最 低 两 位 是 给 软件 中 断 用 的 ， 它 们 具有 更 低 优先 级 。 高 优先 级 的 中 断 
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使 用 这 些 位 确定 中 断 的 直接 原因 ， 把 留 下 的 任务 交 给 更 低 优先 级 中 断 。 一 旦 高 优先 级 中 断 完成 ， 低 优先 级 
中 断 就 会 被 通知 而 且 被 处 理 。 


6. 6.4 在 设备 与 内 存 之 间 传 输 数 据 


我 们 已 经 知道 设备 和 处 理 器 通信 有 两 种 不 同 的 方法 一 一 轮 询 和 LO 中 断 ， 它 们 形成 了 IO 设 
备 和 内 存 之 间 进 行 数据 传输 的 基础 。 这 两 种 技术 在 带宽 比较 低 的 设备 中 都 工作 得 非常 好 ， 在 这 
些 设 备 中 我 们 对 于 减少 设备 控制 器 的 成 本 和 接口 的 成 本 要 比 提供 高 带宽 的 传输 更 感 兴趣 。 轮 询 
和 中 断 驱动 把 数据 搬移 和 管理 数据 传输 的 负担 加 在 处 理 嚣 上。 讨论 完 这 两 种 方案 之 后 ,我们 将 
介绍 一 种 更 合适 高 性 能 设备 或 很 多 设备 的 方案 。 

基于 轮 询 ， 我 们 能 利用 处 理 器 在 设备 与 内 存 之 间 传 输 数据 。 在 实时 应 用 中 ， 处 理 器 从 IO 设 
备 寄存 器 装 入 数据 再 将 它们 存 人 内 存 。 

为 一 种 机 制 是 让 数据 的 传输 由 中 上 断 来 驱动 。 在 这 种 情况 下 ，0S (操作 系统 ) 仍然 从 设备 输 
入 和 输出 少量 的 数据 。 但 是 因为 WO 操作 是 中 断 驱动 的 ， 当 数据 被 读 出 或 者 写 人 设备 时 ，0S 完 
全 可 以 从 事 其 他 任务 。 当 0S 识别 出 从 设备 发 出 的 中 断 时 ， 它 首先 读 取 状 态 位 检查 是 否 发 生 错 
误 。 如 果 没 有 错误 ，0S 就 能 够 提供 下 一 段 数据 ， 如 一 系列 存储 映射 的 写 操作 。 当 IO 请 求 的 最 
后 字 节 传输 完 和 LO 操作 完成 时 ，0S 能 够 通知 程序 。 处 理 器 和 0S 在 这 一 过 程 中 完成 所 有 的 工 
作 ， 为 每 一 个 传输 的 数据 项 访问 设备 和 内 存 。 

中 断 驱 动 V0 将 处 理 器 从 不 得 不 等 待 每 一 个 VO 事件 中 解放 出 来 ， 尽 管 如 此 ， 如 果 我 们 用 这 
种 方法 从 硬盘 传 出 或 者 写 人 数据 ， 开 销 仍然 无 法 接受 ， 因 为 使 用 磁盘 传输 会 花费 处 理 器 很 多 时 
间 。 对 于 像 硬盘 这 种 高 带宽 的 设备 ， 传 输 主要 由 相对 大 块 的 数据 组 成 (成 百 上 千 个 字 节 )。 因 而 
计算 机 的 设计 者 发 明了 一 种 不 需要 处 理 器 的 机 制 ， 让 设备 控制 器 直接 往 内 存 或 从 内 存 传输 数据 
而 不 需要 处 理 器 干涉 。 这 种 机 制 叫做 直接 内 存 访 问 (DMA)S。 设 备 和 处 理 器 通信 时 仍然 用 到 中 
断 机 制 ， 但 仅 限 于 IO 传输 完成 或 出 现 错误 时 。 

DMA 由 一 种 独立 于 处 理 器 ， 能 在 VO 设备 和 内 存 之 间 直 接 传输 数据 的 专用 控制 器 实现 。DMA 
控制 器 是 总 线 控制 器 ”， 指 挥 自己 和 内 存 之 间 进 行 的 读 写 操作 ， 在 一 次 DMA 传输 中 有 三 个 步 又 ， 

1) 处 理 器 通过 提供 以 下 参数 设置 DMA: 设备 标识 、 设 备 要 执行 的 操作 、 内 存 中 传输 数据 的 
源 或 目的 地 址 、 传 输 的 字 节 数 。 

2) DMA 启动 设备 上 的 操作 ， 执 行 互联 仲裁 。 当 数据 可 用 时 (数据 来 自 内 存 或 设备 ) 就 传 
输 数 据 。DMA 设备 提供 数据 读 写 的 内 存 地 址 。 如 果 某 个 请 求 需要 传输 多 次 数据 ， 那 么 DMA 单元 
就 产生 下 一 个 内 存 地 址 并 初始 化 下 一 次 传输 。 采 用 这 种 机 制 ， 一 个 DMA 单元 能 够 完成 一 次 长 度 
可 能 为 数 千 个 字 节 的 完整 传输 ， 而 不 需 打 扰 处 理 器 。 很 多 DMA 控制 器 包含 一 些 存 储 单元 ， 使 它 
们 能 灵活 地 应 对 在 传输 中 或 者 等 待 总 线 控 制 权 时 产生 的 延 时 。 

3) 一 旦 DMA 传输 完成 ， 控 制 器 向 处 理 器 发 出 中 断 ， 然 后 处 理 器 通过 询问 DMA 设备 或 检查 
内 存 决定 整个 操作 是 否 成 功 完成 。 

在 一 个 计算 机 系统 中 可 能 有 多 个 DMA 设备 。 例 如 ， 在 一 个 采用 单条 处 理 器 - 内 存 总 线 和 多 
条 LO 总 线 的 系统 中 ， 每 个 IO 总 线 控制 器 通常 包含 DMA 处 理 器 ， 用 于 处 理 在 IO 总 线 上 设备 
和 内 存 之 间 的 任何 传输 。 

与 轮 询 方式 或 中 断 驱动 VO 不 同 ，DMA 可 用 作 硬 盘 的 接口 ， 这 样 不 用 在 单 次 VO 操作 中 消 


@ 直接 内 存 访问 《direet memory access，DMA) ， 一 种 提供 设备 控制 器 的 机 制 ， 具 备 能 够 从 
要 处 理 器 介入 的 能 力 。 人 办 数据 ， 而 不 需 
局 总 线 控制 器 〈master) : 处 于 IO 互联 中 的 一 个 单元 ， 能 够 发 起 传输 请 求 。 
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耗 全 部 的 处 理 器 周期 。 当 然 ， 在 处 理 器 也 要 使 用 内 存 而 内 存 正 忙于 处 理 一 次 DMA 传输 时 ， 操 作 
将 被 延迟 。 采 用 高 速 缓存 ， 在 大 部 分 时 间 里 处 理 器 能 避免 内 存 访 问 ， 从 而 可 以 把 大 部 分 内 存 带 宽 
留 给 IO 设备 。 

精 解 : 一 次 中 断 请 求 包 含 多 个 V0 操作 ， 处 理 它 占 用 了 处 理 器 的 时 间 ， 为 了 进一步 减少 中 断 对 处 理 器 
的 需求 ，LO 控制 器 可 以 做 得 更 智能 。 智 能 控制 器 通常 叫做 VO 处 理 器 ， 也 称 VO 控制 器 或 通道 控制 器 
《channel controller) 。 这 些 专 用 的 处 理 器 专门 负责 执行 一 系列 VO 操作 ， 称 为 VO 程序 。 这 个 程序 可 以 驻 留 
在 Y0 处 理 器 中 ， 或 存放 在 内 存 里 并 能 被 WO 处 理 器 读 取 。 当 采用 0O 处 理 器 时 ， 操 作 系统 通常 建立 一 个 
LO 程序 来 指明 所 做 的 YO 操作 以 及 所 有 读 写 操作 的 大 小 和 传输 地 址 。 然 后 VO 处 理 器 从 LO 程序 中 取出 
这 些 操作 ， 并 且 只 在 整个 YO 程序 完成 时 才 向 处 理 器 发 出 中 断 。DMA 处 理 器 本 质 上 是 专用 处 理 器 (通常 是 
单 片 的 ， 且 不 能 编程 ); 而 WO 处 理 器 通常 使 用 通用 微 处 理 器 来 实现 ， 可 以 运行 专用 的 VO 程序 。 


6. 6.5 直接 存储 器 访问 和 内 存 系 统 


当 DMA 被 集成 到 VO 系统 时 ， 内 存 系统 和 处 理 器 的 关系 就 发 生 了 变化 。 没 有 DMA 时 ， 所 有 
对 内 存 系统 的 访问 都 来 自 处 理 器 ， 需 要 经 过 地 址 转换 和 高 速 缓存 的 访问 ， 就 好 像 是 处 理 器 自己 
发 出 的 这 些 请 求 。 采 用 DMA 方式 ， 就 有 了 另外 一 条 到 内 存 系统 的 路 径 一 一 一 条 不 需要 通过 地 址 
转换 机 制 或 高 速 缓存 (cache) 层次 的 路 径 。 这 种 区 别 导致 虚拟 内 存 系统 和 采用 高 速 缓存 的 系统 
产生 了 一 些 问题 。 这 些 问 题 通 常用 硬件 技术 和 软件 支持 相 结合 的 方法 解决 。 

在 虚拟 内 存 系 统 中 使 用 DMA 困难 的 原因 是 页 (page) 有 物理 和 虚拟 两 种 地 址 。 在 有 高 速 组 
存 的 系统 中 使 用 DMA 也 会 产生 问题 ， 因 为 一 个 数据 项 可 能 同时 会 有 两 个 副本 : 一 个 在 高 速 缓存 
中 ,一 个 在 内 存 中。 因为 DMA 处 理 器 是 直接 向 内 存 发 出 请 求 而 不 是 通过 高 速 缓存 访问 数据 ， 所 
以 DMA 部 件 所 看 到 的 内 存 地 址 中 的 值 可 能 和 处 理 器 看 到 的 值 不 一 样 。 思 考 如 下 这 种 情况 ，DMA 
部 件 从 磁盘 中 读数 据 并 且 直 接 存 人 人 内存。 如果 被 DMA 瑟 人 的 数据 的 地 址 也 在 高 速 缓存 中 ， 那 么 
当 处 理 器 从 高 速 缓存 中 读 取 数 据 时 就 获得 旧 值 。 同 样 ， 如 果 高 速 缓 存 采 用 写 回 策略 ， 当 高 速 缓 存 
中 已 更 新 数据 但 是 尚未 写 回 内 存 的 时 候 ，DMA 直接 从 内 存 读 取 的 值 就 不 是 正确 的 数据 了 。 这 称 
为 失效 数据 问题 (stale data problem) 或 者 一 致 性 问题 (coherence problem， 见 第 5 意 )。 

我 们 已 经 知道 ， 传 输 /0 与 内 存 之 间 的 数据 有 三 种 不 同 的 方式 。 从 轮 询 方式 到 中 断 驱动 再 到 
DMA 接口 ， 我 们 将 管理 LO 操作 的 负担 从 处 理 器 逐渐 转移 到 一 个 更 加 智能 的 I/O 控制 器 。 这 些 
方法 具有 解放 处 理 器 的 优点 ， 缺 点 是 增加 了 IO 系统 的 成 本 。 因 此 ， 在 一 个 给 定 的 计算 机 系统 
中 ， 需 要 为 连接 到 系统 的 0 设备 选择 这 三 种 方法 中 适合 的 一 种 。 

在 讨论 0 系统 的 设计 之 前 ， 下 一 节 将 简要 介绍 /0 系统 的 性 能 度量 。 


= i 





ry 


关于 三 种 0 操作 方式 的 排名 ， 下 面 的 论断 哪些 是 正确 的 ? 

A. 如果 要 获得 VO 设备 中 LO 操作 的 最 低 延 迟 ， 排 序 顺序 为 ， 轮 询 、DMA 以 及 中 断 驱 动 。 

B, 按照 单个 IO 设备 对 处 理 器 的 使 用 率 影响 最 小 来 排序 ， 排 序 顺 序 是 ，DMA、 中 断 驱 动 和 轮 询 。 
硬件 “软件 接口 

在 采用 虚拟 内 存 的 系统 中 ，DMA 是 应 该 采用 虚拟 地 址 还 是 物理 地 址 ? 采用 虚拟 地 址 最 明显 的 
问题 是 DMA 部 件 需要 将 虚拟 地 址 转换 成 物理 地 址 。 使 用 物理 地 址 在 DMA 传输 中 的 主要 问题 是 传输 
不 容易 跨越 一 个 存储 页 的 边界 。 一 个 IAO 请 求 如 果 跨 域 了 存储 页 的 边界 ， 它 传输 的 内 存 位 置 在 虚拟 
内 存 中 就 不 一 定 连续 。 因 此 ， 如 果 使 用 物理 地 址 ，DMA 传输 必须 被 限制 在 一 个 页 面 之 内 。 

使 DMA 工作 在 虚拟 地 址 上 的 一 种 方法 是 允许 系统 能 启 动 跨越 页 边界 的 DMA 传输 。 在 这 样 一 个 系 
统 中 ，DMA 部 件 有 少量 的 映射 项 用 于 保存 传输 中 的 虚拟 地 址 到 物理 地 址 的 映射 。 当 I/O 启动 时 ， 由 操 
作 系 统 来 提供 这 些 映射 。 使 用 这 种 映射 ，DMA 部 件 不 需要 关注 被 传输 的 虚拟 页 面 的 位 置 。 
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另外 一 种 方法 是 将 DMA 传输 切断 为 由 操作 系统 执行 的 一 系列 的 传输 ， 它 们 中 的 每 一 个 操作 
都 限制 在 单一 的 物理 页 面 中 ， 最 后 将 这 些 传 输 链 接 起 来 ， 交 给 IO 处 理 器 或 者 智能 DMA 部 件 处 
理 ， 由 它们 执行 整个 序列 的 传输 ; 或 者 由 操作 系统 逐一 请 求 这 些 传输 。 

无 论 采 用 以 上 提 及 的 哪 一 种 方法 ， 当 包含 某 个 页 面 的 DMA 传输 正在 进行 时 ， 操 作 系 统 都 不 
能 对 该 页 进行 重 映射 。 
硬件 软件 接口 

避免 VO 数据 的 不 一 致 问题 ， 可 以 使 用 下 面 三 种 方法 之 一 。 第 一 种 方法 是 将 高 速 缓存 与 IO 
保 作 关联 ， 这 种 方法 确保 了 读 操 作 能 看 到 最 新 值 而 写 操 作 会 更 新 高 速 缓存 中 的 数据 。 将 高 速 组 
存 和 所 有 的 IVO 相关 联 的 成 本 很 高 ， 对 处 理 器 也 存在 潜在 的 负面 影响 ， 因 为 IO 数据 很 少 立刻 被 
用 到 ， 而 和 且 这 可 能 会 将 运行 程序 所 需 的 有 用 数据 从 cache 中 挤 出 去 。 第 二 种 方法 是 让 0S 选择 性 
地 将 高 速 缓存 中 与 WO 读 操 作 相关 的 数据 项 设置 为 无 效 ， 对 于 LO 写 操作 ， 强 迫 高 速 缓存 写 回 内 
存 〈 通 常 称 为 高 速 缓存 刷新 ) 。 这 种 办 法 需要 一 些 少 量 的 硬件 来 支持 ， 如 果 软 件 能 够 方便 而 有 效 
地 执行 这 个 功能 ， 采 用 软件 可 能 会 更 加 有 效 。 因 为 这 种 大 块 高 速 缓存 刷新 的 操作 只 在 DMA 进行 
块 的 访问 时 发 生 ， 所 以 它 的 相对 出 现 次 数 不 多 。 第 三 种 方法 是 提供 一 种 硬件 机 制 ， 选 择 性 地 刷新 
高 速 缓 存 一 些 块 《或 者 使 之 无 效 )。 用 硬件 失效 机 制 来 确保 高 速 缓存 一 致 性 的 技术 在 多 处 理 颖 系 
统 中 很 常见 ， 这 种 技术 也 被 用 在 LO 中 ; 在 第 5 章 对 这 些 有 详细 的 讨论 。 


6. 7 IO 性 能 度量 : 磁盘 和 文件 系统 的 例子 


如 何 比较 不 同 的 0 系统 的 性 能 ? 这 是 一 个 复杂 的 问题 ， 因 为 0 性 能 取决 于 系统 的 很 多 方 
面 ， 不 同 的 应 用 侧重 于 IO 系统 的 不 同方 面 。 而 且 ， 设计 在 响应 时 间 和 吞吐 量 之 间 做 权衡 ， 这 就 
要 求 我 们 不 能 只 测量 某 一 方面 的 性 能 。 例 如 ， 尽量 早 处 理 请 求 通 常会 最 小 化 响应 时 间 ， 而 把 相关 
的 请 求 合 起 来 处 理 ， 则 可 以 达到 更 大 的 吞吐 量 。 相 应 地 ， 我 们 把 访问 地 址 相近 的 请 求 放 在 一 起 ， 
就 可 以 增加 磁盘 的 吞吐 量 。 这 样 的 策略 对 某 些 请 求 会 增加 响应 时 间 ， 可 能 导致 响应 时 间 发 生 巨 
六 变化 。 尽 管 吞 吐 量 会 更 高 ， 但 有 些 基准 程序 对 请 求 的 最 大 响应 时 间 有 约束 ， 导 致 _ 些 优化 方案 
可 能 会 出 现 问题 。 

在 本 节 ， 我 们 给 出 度量 存储 系统 性 能 的 一 些 实例 。 这 些 基准 程序 受 一 些 系统 特性 的 影响 ， 包 
括 磁盘 技术 、 磁 盘 链 接 的 方式 、 内 存 系统 、 处 理 器 以 及 操作 系统 所 提供 的 文件 系统 。 

在 讨论 基准 程序 之 前 ， 需 要 澄清 在 术语 和 单位 方面 易 混 少 的 问题 ，IZO 系统 的 性 能 取决 于 系 
统 传输 数据 的 速率 。 时 钟 频率 的 单位 是 GHz = 10* 周期 每 秒 。 传输 速率 取决 于 时 钟 频率 ， 通 常 单 
位 是 CB/s。 在 IO 系统 中 ，GB 以 10 为 底 计算 (1 GB =10 = 1 000 000 000 字 节 ) ， 而 不 像 主 存 以 
2 为 底 计算 (1 GB =2 = 1 073 741 824 字 节 ) 。 除 了 增加 混乱 以 外 ， 这 种 差异 还 需要 在 10 为 底 
(CILK=1000) 和 2 为 底 (1K=1024) 的 数 之 间 进 行 转换 ， 因为 许多 IO 访问 中 传输 的 数据 块 是 
以 2 为 底 来 计算 的 。 精 确 地 转换 度量 方式 会 使 得 我 们 的 例子 复杂 化 ， 与 之 不 同 ， 我 们 在 这 里 注 明 
了 这 种 差别 并 将 这 两 种 度量 作为 单位 来 解释 会 引入 小 的 误差 的 事实 。 我 们 将 在 6. 12 节 举 例 说 明 
引入 的 误差 。 


6. 7.1 事务 处 理 1/O 基准 程序 
事务 处 理 ”(TP) 应 用 软件 包含 了 对 响应 时 间 的 要 求 和 基于 吞吐 量 的 性 能 要 求 。 为 外 ， 大 多 
数 的 VO 访问 的 数据 量 都 很 小 。 因 此 ，TP 应 用 主要 关心 IO 速率 ” ， 即 每 秒 磁盘 访问 次 数 ， 而 


© 事务 处 理 (transaction processing) : 这 是 一 种 应 用 ， 包 含 了 处 理 小 的 、 短 的 操作 (事务 )， 这 些 事务 通常 需要 1/0 
和 计算 。 事 务 处 理应 用 通常 具有 啊 应 时 间 的 需求 和 基于 事务 吞吐 量 的 性 能 度量 。 
电 TO 速率 (0 rate) : 单位 时 间 的 VO 性 能 尺度 ， 例如 ， 每 秒 钟 读 操作 数目 。 
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不 是 数据 速率 ”， 即 每 秒 钟 传送 数据 的 字 节 数 。TP .应 用 一 般 包括 对 大 型 数据 库 的 修改 操作 ， 因 此 
系统 有 响应 时 间 的 要 求 ， 同 时 还 要 能 很 好 地 处 理 某 些 种 类 的 故障 。 这 些 应 用 非常 关键 ， 对 成 本 也 
极度 敏感 。 例 如 ， 银 行 一 般 都 是 用 TP 系统 ， 因 为 要 考虑 一 系列 特性 。 这 些 特 性 包括 确保 事务 不 
丢失 ，、 迅 速 处 理事 务 和 确保 处 理 每 个 事务 的 开销 最 小 。 尽 管 面 对 故 障 可 靠 性 是 这 类 系统 的 根本 
要 求 ， 但 是 啊 应 时 间 和 吞吐 量 对 构造 性 价 比 最 优 的 系统 非常 关键 。 

现在 已 经 开发 出 很 多 事务 处 理 基 准 程序 。 其 中 最 为 著名 的 是 ， 由 事务 处 理 委员 会 (Transac- 
tion Processing Council ，TPC) 天 发 的 一 套 基准 程序 。 

TPC-C， 最 初创 建 于 1992 年 ， 模 拟 了 一 个 复杂 的 查询 环境 。TPC-H 对 特殊 决策 支持 进行 建 
模 一 一 查询 是 不 相关 的 ， 而 且 过 去 查询 的 信息 不 能 用 来 优化 未 来 的 查询 ; 所 以 查询 的 执行 时 间 
会 很 长 。TPC-W 是 基于 Web 的 事务 基准 程序 ， 它 模拟 了 一 个 面向 事务 型 的 Web 服务 器 的 活动 ， 
运行 了 数据 库 系 统 和 潜在 的 Web 服务 器 软件 。TPC- App 是 一 个 应 用 程序 服务 器 和 网 络 服务 基准 
程序 。 最 新 的 TPC-E 模拟 了 经 纪 商 事务 处 理 器 负载 。 关 于 TPC 的 基准 程序 在 http: www.tpc.org 
中 有 描述 。 

所 有 的 TPC 基准 程序 按 每 秒 的 事务 数 来 测量 性 能 。 另 外 ， 它 们 包含 一 个 响应 时 间 要 求 ， 因 
而 只 有 当 啊 应 时 间 达 到 要 求 时 才 测 量 吞 吐 量 性 能 。 为 了 对 真实 世界 的 系统 进行 模拟 ， 更 高 的 事 
务 率 往往 和 更 大 的 系统 相关 联 ， 系 统 的 大 小 既 指 用户 数 的 多 少 ， 也 指 处 理事 务 数据 库 的 大 小 。 因 
此 ,存储 容量 必须 随 着 性 能 而 扩展 。 最 后 ， 基 准 测 试 系统 的 系统 开销 也 必须 包含 在 内 ， 以 便 准确 
地 比较 开销 与 性 能 之 比 的 值 。 


6. 7.2 文件 系统 和 Web IO 的 基准 程序 


除了 给 处 理 器 提供 基准 程序 ，SPEC 还 提供 文件 服务 器 基准 程序 (SPECSFS) 以 及 Web 服务 
华 基 准 程序 (SPECWeb)。SPECSFS 是 使 用 文件 服务 器 请 求 脚本 来 测量 网 络 文件 系统 (Network 
File System，NFS) 性 能 的 基准 程序 ， 它 也 测试 OQ 系统 的 性 能 ,. 包括 磁盘 、 网 络 ZO 和 处 理 器 。 
SPECSFS 是 针对 吞吐 量 的 基准 程序 ， 但 是 对 响应 时 间 也 有 重要 的 要 求 。SPECWeb 是 Web 服务 器 
基准 程序 ， 模 拟 多 个 客户 向 服务 器 请 求 静 态 和 动态 的 页 面 和 模拟 客户 回 服 务 器 传送 数据 的 情况 
( 见 第 1 章 )。 
最 近 SPEC 致力 于 功 耗 测量 的 测试 程序 开发 。SPECPower 测量 小 型 服务 器 的 功 耗 以 及 性 能 特性 。 
Sun 公司 最 近 公 布 了 filebench， 这 是 一 个 文件 系统 基准 测试 程序 框架 ， 它 没有 采用 标准 的 负 
载 ， 而 是 提供 了 一 种 语言 来 让 你 描述 想 在 文件 系统 上 运行 的 负载 。 然 而 ， 存在 使 用 文件 负载 模拟 
常见 文件 系统 的 应 用 。 
小 测验 
下 面 哪些 是 正确 的 ? 和 处 理 器 基准 程序 不 同 ，LO 基准 程序 
A. 比 起 延迟 ， 更 关注 春 吐 量 。 
B. 为 了 达到 要 求 的 性 能 ,需要 扩展 数据 集合 或 者 扩展 用 户 数 目 。 
C. 经 常 报告 造价 和 性 能 。 


6.8 设计 IO 系统 


设计 者 在 VO 系统 中 会 遇 到 两 种 主要 的 约束 ; 时 延 约束 和 带宽 约束 。 对 于 这 两 点 ， 对 通信 模 
元 的 认 知 将 影响 整个 设计 和 分 析 。 
时 延 约 束 确 保 完成 一 次 WO 操作 的 延迟 时 间 被 限制 在 某 个 数量 范围 内 。 一 种 简单 的 情况 是 认 





加 ”数据 速率 〈data rate) : 单位 时 间 字 节 的 性 能 尺度 ， 例如 ，GB/s。 
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为 系统 是 无 负载 的 ,设计 者 必须 确保 满足 某 些 时 延 约 束 ， 这 是 因为 这 种 限制 对 应 用 程序 非常 重 
要 ， 或 者 设备 为 了 防止 某 种 错误 必须 接受 某 些 有 保证 的 服务 。 同 样 ， 在 一 个 无 负载 系统 中 计算 延 
述 相 对 比较 容易 ， 因 为 只 用 跟踪 LO 操作 的 路 径 并 累加 单个 延迟 时 间 即 可 。 

在 有 负载 的 情况 下 ， 得 到 平均 时 延 〈 或 者 时 延 分 布 ) 是 一 个 复杂 得 多 的 问题 。 这 些 问 题 可 
以 通过 排队 论 〈《 当 工作 量 请 求 的 行为 和 LO 服务 次 数 能 够 通过 简单 的 分 布 来 近似 时 ) 或 者 模拟 
( 当 LO 事件 的 行为 很 复杂 时 ) 的 方法 解决 。 这 两 个 主题 在 本 书 讨论 的 范围 之 外 。 

给 定 一 个 工作 负载 ， 设 计 一 个 满足 一 组 带宽 约束 的 YO 系统 是 设计 者 需要 面 对 的 另 一 个 典型 
的 问题 。 换 名 话说 ， 给 定 一 个 部 分 配置 好 的 VO 系统 ， 要 求 设计 者 平衡 系统 ， 以 维持 该 系统 预 配 
置 部 分 规定 的 可 能 到 达 的 最 大 带宽 。 后 面 的 这 个 设计 问题 是 前 者 的 简化 版 本 。 

设计 这 样 一 个 系统 的 一 般 方法 如 下 : 

1) 找 出 VO 系统 中 效率 最 低 的 链 路 ,一般 是 LO 路 径 中 限制 设计 的 部 件 。 依 赖 于 工作 负载 ， 
该 部 件 可 以 存在 于 任何 地 方 ， 包 括 处 理 器 、 内 存 系统 、LO 控制 器 或 外 设 。 工 作 负载 和 配置 限制 
会 决定 这 个 效率 最 低 的 部 件 到 底 在 哪儿 。 

2) 配置 这 个 部 件 以 保持 所 需 的 带宽 。 

3) 确定 系统 中 其 他 部 分 的 需求 ， 配 置 它 们 以 支持 这 个 带宽 。 

理解 这 个 方法 最 简单 的 方式 是 举 一 个 例子 。 我 们 将 在 6. 10 节 对 Sun Fire x4150 服务 器 做 O 
系统 的 简单 性 能 分 析 。 


6. 9 并 行 性 与 |/O， 廉价 磁盘 元 余 阵 列 
第 1 章 的 Amdahl 定律 提醒 我 们 在 并 行 革命 中 忽略 IO 是 相当 愚 剧 的 事情 。 下 面 的 例子 就 会 
证 明 这 一 点 。 
LO 对 系统 性 能 的 影响 
假设 存在 一 个 运行 时 间 为 100 s 的 基准 程序 ， 其 中 90 s 是 CPU 时 间 ， 剩余 的 是 IO 占用 的 时 
间 。 如 果 CPU 的 数 自 每 两 年 增长 一 倍 ， 但 是 处 理 器 的 速度 保持 不 变 ，1/O 时 间 保 持 不 变 ， 那 么 6 
年 后 运行 该 程序 要 耗费 多 少时 间 ? 
我 们 知道 
耗费 时 间 =CPU 时 间 + 1O 时 间 
100 =90 +1LO 时间 
WO 时 间 =108s 


下 面 的 表 计算 新 的 CPU 时 间 和 运行 时 间 。 


6 年 后 ， 处 理 咒 速度 的 提高 : 90/11 =8。 
然而 ， 运 行 速度 的 提高 只 有 : 100/21 =4.7。 
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VO 时 间 在 运行 时 间 中 所 占 的 比例 从 10% 变 为 47%。 

因此 ,不 但 计算 需要 并 行 革命 ，1O 也 需要 并 行 革命 ， 否 则 ， 只 要 程序 需要 做 LO 操作 ， 实 
际 上 每 个 程序 都 需要 有 LO 操作 ， 花 费 在 并 行 化 上 的 代价 可 能 就 会 被 浪费 掉 。 

加 速 WO 性 能 是 磁盘 阵列 的 一 个 最 初 的 动机 〈( 见 光盘 中 的 6.14 节 )。 在 20 世纪 80 年 代 后 
期 ， 高 性 能 的 存储 器 就 是 又 大 又 昂贵 的 磁盘 ， 如 图 6-4 中 的 那些 大 磁盘 。 有 一 种 观点 是 使 用 很 多 
小 的 磁盘 来 替代 少量 的 大 磁盘 ， 性 能 会 得 到 提高 ， 因 为 这 样 会 得 到 更 多 的 读 磁 头 。 这 种 转变 对 于 
多 处 理 器 来 说 是 一 个 好 的 匹配 ， 因 为 很 多 的 读 / 写 磁头 意味 着 存储 系统 可 以 支持 更 多 的 独立 访 
问 ， 以 及 将 大 的 传输 遍布 到 很 多 个 磁盘 中 。 也 就 是 说 ， 你 可 以 在 每 一 秒 钟 得 到 高 的 IO 率 以 及 高 
的 数据 传输 率 。 除 了 有 较 高 性 能 的 优势 ， 在 价格 、 功 耗 以 及 面积 方面 这 个 策略 也 具备 优势 ， 因 为 
小 一 些 的 磁盘 通常 比 大 一 些 的 磁盘 在 每 GB 上 更 有 效 。 

这 种 观点 的 缺点 在 于 磁盘 阵列 导致 可 靠 性 变 得 更 加 糟糕 。 这 些小 而 且 便 宜 的 磁盘 和 大 磁盘 
相 比 具有 低 的 MTTF。 而 且 更 为 重要 的 是 ， 比 如 说 ， 通 过 50 个 小 磁盘 来 替换 一 个 大 磁盘 ， 故 障 率 
将 会 至 少 上 升 50 倍 ! 

解决 问题 的 办 法 是 增加 宛 余 ， 以 便 系 统 能 够 不 委 失 信息 地 处 理 磁盘 故障 。 和 少量 的 大 磁盘 
的 可 靠 性 的 解决 策略 相 比 ， 很 多 小 的 磁盘 使 用 额外 的 元 余 提 高 可 靠 性 的 代价 相当 小 。 因 此 ， 如 果 
要 构建 一 个 廉价 磁盘 元 余 阵列 的 话 ， 可 靠 性 是 可 以 负担 起 的 。 这 个 研究 导致 了 它 的 名 字 : redun- 
dant arrays of inexpensive disk“ 简称 为 RAID 。 

回顾 一 个 ， 尽 管 这 个 发 明 的 目的 是 性 能 ， 但 是 可 靠 性 成 为 RAID 流行 起 来 的 关键 原因 。 并 行 
革命 为 RAID 观点 中 原 有 的 性 能 方面 铺 平 了 道路 。 本 节 的 剩余 部 分 总 结 了 可 靠 性 的 几 种 途径 以 及 
各 种 途径 对 于 性 能 和 价格 的 影响 。 

那么 需要 多 少 元 余 呢 ? 需要 额外 信息 来 找到 错误 吗 ? 组 织 磁盘 上 的 数据 和 检查 磁盘 上 的 额 
外 校 验 信息 是 否 重要 ? 定义 该 术语 的 文章 对 这 些 问题 ， 从 最 简单 但 最 昂贵 的 解决 方案 开始 ， 给 出 
了 一 个 渐进 式 的 回答 。 图 6-12 给 出 了 演变 的 过 程 ， 并 按 人 额外 校 验 磁盘 数量 来 计算 开销 。 为 了 使 
过 程 明 了 ， 作 者 给 RAID 的 各 个 阶段 编 了 号 ， 这 在 今天 仍然 使 用 。 
元 余 校 验 磁 盘 





RAID 0 

( 非 元 余 ) 
广泛 使 用 
RATD 1 


(镜像 ) 
EMC.HP (Tandem ) .IBM 


RAID 2 
(错误 检测 以 及 纠 错 码 ) 
未 被 使 用 


RAID 3 
(位 交叉 奇偶 校 验 》 
存 情 概念 
RAID4 
‘ 块 交叉 奇偶 校 验 ) 
网 络 应 用 
RAIJD 5 
(分 布 式 块 交 丸 奇 恤 校 验 》 
广泛 使 用 
RAID 6 


《P+Q 宛 余 ) 
最 近 流 行 的 


6-12 以 4 个 数据 磁盘 为 例 列 出 每 级 RAID 所 需 的 额外 的 校 验 盘 以 及 使 用 各 级 RAID 的 对 应 公司 
图 6-13 和 6-14 说 明了 RAID3、RAID4、RAID5 之 间 的 区 别 。 





曲 “一 种 磁盘 的 组 织 形式 ， 使 用 小 而 便宜 的 磁盘 组 成 阵列 ， 目的 是 提高 性 能 和 可 靠 性 。 
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6. 9.1 无 宛 余 (RAID 0) 


仅仅 把 数据 分 散 到 多 个 磁盘 ， 称 为 条 带 化 ” ， 自 动 把 访问 强制 分 布 到 几 个 磁盘 上 。 在 一 组 磁 
盘 上 进行 条 带 化 使 得 这 一 组 磁盘 对 于 软件 来 说 是 一 个 大 磁盘 ， 从 而 简化 了 存储 管理 。 而 且 对 多 
个 同时 的 访问 来 说 有 利于 改进 性 能 ， 因 为 多 个 磁盘 可 以 同时 操作 。 人 例如， 视频 编 辑 系统 经 常 对 它 
们 的 数据 进行 条 带 化 ， 不 需要 像 数 据 库 那样 关心 可 靠 性 问题 。 

RAID 0 的 称谓 有 些 不 妥 ， 因 为 它 根本 没有 兄 余 。 然 而 ，RAID 的 级 别 通 常 由 操作 员 在 创建 系 
统 时 设置 ， 而 RAID 0 经 常 被 列 为 其 中 一 个 选项 。 因 此 ，RAID 0 的 说 法 就 被 广泛 使 用 了 。 


6. 9.2 镜像 (RAID 1) 


这 种 传统 的 容忍 磁盘 失效 的 方法 ， 被 称 为 镜像 “或 者 影像 (shadowing) ， 使 用 比 RAID 0 多 一 
售 的 磁盘 数 。 数 据 写 入 某 个 盘 时 ， 同 样 的 数据 会 写 人 其 元 余 盘 ， 因 此 始终 存在 信息 的 两 份 副本 。 
如 果 一 个 磁盘 出 现 故 障 ， 系 统 就 转向 其 “镜像 ” 读 取 内 容 以 获得 所 需 信息 。 镜 像 是 最 昂贵 的 
RAID 方案 ， 因 为 它 需 要 最 多 的 磁盘 。 


6. 9. 3 错误 检测 和 纠 错 码 (RAID 2 ) 


RAID 2 借用 了 主 存 常用 的 错误 校 验 和 恢复 技术 (参见 光盘 中 的 附录 C)。RAID 2 已 经 不 再 
使 用 了 ， 因 此 我 们 这 里 不 做 介绍 。 


6. 9. 4 ”位 交叉 奇偶 校 验 (RAID 3) 


增加 可 用 性 的 开销 可 以 减 至 1/n， 这 里 为 保护 组 S 内 磁盘 的 数目 。 我 们 不 再 为 每 个 磁盘 做 
一 个 原始 数据 的 完全 备份 ， 而 只 需要 加 入 足够 的 宛 余 信 息 以 便 在 出 错 的 时 候 恢 复 丢 失 的 信息 。 
读 写 操作 在 组 内 所 有 磁盘 上 进行 ， 一 个 额外 的 磁盘 存 有 校 验 信息 以 防 错 误 的 发 生 。RAID 3 在 使 
用 大 数据 集 的 应 用 (如 多 媒体 和 科学 计算 ) 中 很 流行 。 

奇偶 校 验 〈Parity) 就 是 这 样 的 一 个 策略 。 不 熟悉 奇偶 校 验 的 读者 可 以 把 元 余 磁 盘 想 象 成 保 
人 存 有 其 他 磁盘 所 有 数据 的 和 。 当 一 个 磁盘 出 错时 ， 用 奇偶 校 验 盘 减 去 正常 磁盘 的 数据 的 和 ; 余数 
陨 是 丢失 的 信息 。 奇 偶 校 验 就 是 模 2 下 的 求 和 。 

与 RAID 1 不 同 ，RAID 3 必须 读 很 多 磁盘 才能 确定 丢失 的 数据 。 该 技术 背后 的 假设 就 是 用 更 
长 的 时 间 来 恢复 错误 而 用 更 少 的 元 余 存 储 得 到 一 个 好 的 平衡 。 


6. 9. 5 块 交 又 奇偶 校 验 (RAID 4) 


RAID 4 使 用 同 RAID 3 数目 比率 一 样 大 的 数据 磁盘 和 校 验 盘 ， 但 是 访问 数据 的 方式 不 同 。 奇 
偶 校 验 码 以 块 为 单位 存储 ， 和 一 组 数据 块 相关 。 

在 RAID 3 中 ， 每 次 访问 都 用 到 所 有 磁盘 。 然 而 ， 某 些 应 用 偏重 于 较 小 的 数据 访问 ， 人 允许 并 
行 地 发 生 多 个 独立 访问 。 这 就 是 发 明 RAID 4 ~ RAID 6 的 目的 。 由 于 读 操作 需要 校 验 每 个 扇 区 的 
错误 检测 信息 来 判断 数据 正确 与 否 ， 只 要 少量 的 访问 数据 仍 为 同一 个 扇 区 ， 各 磁盘 上 这 些 “ 小 
数据 量 的 读 操 作 ” 就 可 以 独立 地 进行 。 在 RAID 环境 中 ， 小 数据 量 访问 在 保护 组 中 的 一 个 磁盘 发 
生 ， 而 大 数据 量 访问 需要 用 到 保护 组 中 的 所 有 磁盘 。 

写 操 作 是 另外 一 个 问题 。 看 上 去 似乎 每 一 次 小 数据 量 的 写 操作 都 需要 访问 其 他 磁盘 信息 ， 使 用 这 


日 条 带 化 (striping): 将 逻辑 上 连续 的 数据 块 分 布 到 不 同 的 磁盘 上 ， 得 到 比 单个 磁盘 更 高 的 性 能 。 
已 镜像 (mimoring) : 将 相同 的 数据 写 到 多 个 磁盘 上 ， 目的 是 增加 数据 的 可 用 性 。 
加 保护 组 (protection group); 共享 一 个 公共 校 验 磁 盘 的 数据 磁盘 组 或 者 数据 块 。 
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些 信息 重新 计算 新 的 奇偶 校 验 值 ， 如 图 6-13 所 示 。 一 次 “小 数据 量 的 写 操作 ”需要 读 取 旧 数 据 和 旧 奇 
偶 校 验 ， 添 加 新 信息 ， 接 着 把 新 的 奇偶 校 验 和 写 人 校 验 盘 ， 把 新 的 数据 写 入 数据 盘 。 


新 数据 
New Data 





6-13 小 数据 量 写 更 新 在 RAID 3 和 RAID 4 上 前 比较 

对 小 数据 量 写 操作 的 优化 减少 了 磁盘 访问 的 数量 ， 也 减少 了 占用 磁盘 空间 的 数量 。 本 图 假设 有 4 块 数据 和 1 
块 校 验 码 。 图 左 侧 的 RAID 3 校 验 计算 在 加 入 块 D0' 之 前 要 读数 据 块 D1、D2 和 D3 才能 计算 新 校 验 码 P'。( 需 
要 注意 的 是 ， 新 数据 D0’ 直接 来 自 CPU， 所 以 不 需要 读 磁 盘 来 获取 。) 图 右 侧 的 RAID 4 优化 方法 是 读 取 介 值 
D0 并 与 新 值 D0’ 比较 看 是 否 改变 。 然 后 读 取 旧 校 验 码 P， 修 改 对 应 的 位 ， 形 成 新 校 验 码 P'。 使 用 或 逻辑 操作 
即 可 实现 。 图 中 把 三 次 读 磁 盘 《(D1、D2、D3) 和 两 次 写 磁 盘 (D0'，P') 替换 为 两 次 读 磁 盘 ( D0，P) 和 两 
次 写 磁 盘 〈D0 ，P ) ， 前 者 访问 了 所 有 磁盘 ， 而 后 者 仅 访问 其 中 的 两 个 磁盘 。 随 着 校 验 组 大 小 的 增加 将 使 得 
优化 的 效果 更 加 明显 。RAID 5 亦 使 用 同样 的 方式 。 


减 小 开销 的 关键 在 于 校 验 码 不 过 是 信息 的 一 个 总 和 ; 通过 观察 写 人 新 信息 后 哪些 位 发 生 了 
变化 ， 我 们 只 需 改 变 校 验 盘 上 的 对 应 位 的 信息 即 可 。 图 6- 13 的 右 图 说 明了 该 方法 。 我 们 必须 从 
要 与 的 磁盘 读 取 旧 数据 ， 用 旧 数 据 和 新 数据 比较 ， 看 娜 些 位 发 生 了 变化 。 读 有 肯 奇 偶 校 验 和 ， 改 变 
对 应 的 位 ， 然 后 写 人 新 数据 以 及 新 的 校 验 和 。 这 样 ， 一 次 小 数据 量 的 写 操作 包含 对 两 个 磁盘 的 4 
次 访问 ， 而 不 是 访问 所 有 的 磁盘 。 这 种 组 织 结构 就 是 RAID 4。 


6. 9. 6 分布 式 块 交叉 奇偶 校 验 (RAID 5) 


RAID 4 有 效 地 文 持 了 大 数据 量 读 、 大 数据 量 写 和 小 数据 量 读 、 小 数据 量 写 的 混合 操作 。 它 
的 缺点 是 每 次 写 操作 都 要 更 新 校 验 盘 ， 从 而 校 验 盘 成 为 连续 写 的 瓶颈 。 

为 了 解决 校 验 - 写 瓶颈 ， 校 验 信息 可 以 分 布 到 所 有 盘 上 ， 使 得 写 操作 不 存在 单一 的 瓶颈 。 这 
种 分 布 式 的 奇偶 校 验 组 织 方式 就 是 RAID 5。 

图 6- 14 展示 了 数据 在 RAID 4 和 RAID 5 上 是 如 何 分 布 的 。 右 图 展示 的 是 RAID 5 组 织 方式 ， 其 中 
数据 块 每 行 的 校 验 信息 不 再 限定 要 校 验 块 不 在 相同 的 磁盘 上 ， 这 种 组 织 方式 就 使 得 多 
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RAID 4 RAID 5 


图 6-14 块 交叉 奇偶 校 验 {RAID 4) 与 分 布 式 块 交叉 奇偶 校 验 (RAID 5) 
通过 将 校 验 块 分 布 到 所 有 磁盘 ， 一 些小 数据 量 的 写 操作 可 以 并 行进 行 。 
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个 写 操 作 可 以 同时 发 生 。 例 如 ， 右 侧 第 1 个 写 操 作 是 向 第 8 块 写 数据 ， 需 要 同时 访问 P2 中 的 奇偶 值 ， 
从 而 需要 访问 第 1 个 和 第 3 个 磁盘 。 右 侧 第 2 个 写 操作 对 第 $ 块 进行 写 ， 意味 着 要 更 新 其 校 验 块 Pl， 
从 而 需要 访问 第 2 个 和 第 4 个 磁盘 ， 所 以 它 可 以 和 写 第 8 个 数据 并 发 进行 。 对 于 左 侧 的 组 织 结构 来 说 ， 
同样 的 写 操作 则 需要 修改 第 5 个 磁盘 上 的 Pl 和 P2， 这 就 构成 了 瓶颈 。 


6.9.7 P+Q 宛 余 (RAID 6) 


基于 奇偶 校 验 的 机 制 可 使 系统 免 受 单个 可 自动 识别 的 错误 的 破坏 。 当 单个 错误 纠正 机 制 不 
足以 保护 系统 时 ， 可 利用 奇偶 校 验 对 数据 和 另 一 个 校 验 盘 的 信息 进行 二 次 计算 。 二 次 校 验 块 可 
使 系统 从 二 次 错误 中 恢复 过 来 。 因 此 ， 它 的 存储 开销 是 RAID 5 的 两 倍 。 图 6-13 中 的 小 数据 方法 
还 能 成 立 ， 只 是 现在 更 新 P 和 Q 信息 需要 访问 6 个 盘 而 不 是 访问 4 个 盘 。 


6. 9.8 ”RAID 小 结 


RAID 1 和 RAID 5 广泛 用 于 服务 器 ; 一 项 估计 是 服务 器 中 80% 的 磁盘 都 使 用 了 某 种 
RAID 。 

RAID 系统 的 弱点 是 修复 。 首 先 ， 为 了 避免 在 修复 时 数据 不 可 用 ， 阵 列 必须 设计 为 不 必 
关闭 系统 就 能 替换 出 错 盘 。RAID 拥有 足够 的 元 余 性 以 保证 不 间断 的 操作 ， 但 是 热 交 换 9 磁 
盘 对 阵列 和 磁盘 接口 的 物理 及 电路 设计 提出 了 要 求 。 其 次 ,修复 中 可 能 出 现 另 外 的 错误 ， 
这 样 修复 时 间 会 影响 丢失 数据 的 概率 : 修复 时 间 越 长 ， 另 一 错误 引起 丢失 数据 的 概率 越 大 。 
某 些 系统 并 不 用 等 待 操作 员 来 装 上 好 的 磁盘 ， 它 们 包含 应 急 备 用 e， 这 样 一 旦 检测 出 错误 ， 
数据 就 可 以 立即 重建 。 操 作 员 就 可 轻松 地 更 换 出 错 磁 盘 。 最 后 ， 操 作 人 员 最 终 决 定 撤 掉 哪 
个 磁盘 。 如 图 6-3 所 示 ， 注 意 ， 操 作 员 是 人 ， 因 此 他 们 有 时 筷 会 撤 掉 好 的 磁盘 导致 不 可 恢 
复 的 磁盘 错误 。 

除了 设计 可 以 修复 的 RAID ， 还 存在 一 些 如 何 随 着 磁盘 技术 变化 的 问题 。 尽 管 磁盘 厂商 标 称 
他 们 的 产品 具有 很 高 的 MTTF， 但 是 这 些 数据 是 在 假设 的 情况 下 得 到 的 。 如 果 某 个 特定 磁盘 阵列 
遭遇 了 由 于 空调 系统 故障 、 糟 糕 的 磁盘 架设 计 、 构 建 或 者 安装 引起 震动 而 引起 温度 周期 变化 ， 出 
错 率 将 大 大 增加 ,增加 3 ~6 倍 〈 见 6. 12 节 ) 。RAID 可 靠 性 的 计算 假设 多 个 磁盘 失效 之 间 是 独立 
的 ， 但 实际 上 这 些 失 效 可 能 是 相关 的 ， 因 为 环境 引起 的 损伤 可 能 会 发 生 在 阵列 中 的 所 有 磁盘 上 。 
为 一 个 问题 是 磁盘 的 带宽 相对 磁盘 的 容量 变化 得 越 来 越 慢 ， 在 一 个 RAID 系统 中 修复 一 个 磁盘 的 
时 间 变 得 越 来 越 长 ， 这 一 点 反 过 来 增加 第 二 次 故 谭 出 现 的 概率 。 例 如 ， 在 假设 没有 干扰 时 ， 一 个 
1000 GB SATA 磁盘 可 能 需要 花费 3 个 小 时 来 顺序 读 。 假 设 这 个 损坏 的 RAID 很 可 能 被 继续 用 来 提 
供 数据 ， 重 建 这 程 就 会 被 延长 很 多 。 除 了 增加 时 间 外 ， 另 一 个 问题 是 在 重建 过 程 中 一次 读 很 多 数 
据 将 意味 着 增加 不 可 恢复 的 读 媒体 故障 发 生 的 概率 ， 而 不 可 恢复 的 故障 将 导致 数据 丢失 。 其 他 
关于 同时 发 生 多 个 故障 的 看 法 是 增加 阵列 中 的 磁盘 数目 以 及 使 用 SATA 磁盘 ， 这 样 比 传统 的 商用 
磁盘 慢 一 些 ， 但 具有 更 高 的 容量 。 

因此 ， 这 些 趋势 导致 对 防止 系统 免 受 多 重 故 障 的 研究 兴趣 大 大 增加 。 所 以 RAID 6 成 为 一 种 
可 选项 ， 在 实际 中 被 使 用 。 

小 测验 
下 列 关 于 RAID 1、3、4、5 和 6 级 的 说 法 ， 哪 些 是 对 的 ? 
A. RAID 系统 依靠 元 余 来 取得 高 可 用 性 。 


日 、 热 交换 (hot-swapping) ; 系统 运行 的 时 候 ， 替换 一 个 硬件 模块 。 
名 应 急 备 用 (standby spares ) 使 用 预 留 的 硬件 资源 立即 替换 发 生 故 障 的 模块 。 
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B. RAID 1 (镜像 ) 的 校 验 盘 开销 最 大 。 

C. 对 于 小 数据 量 的 写 操作 ，RAID 3 (比特 交叉 奇偶 校 验 ) 吞吐 量 最 差 。 

D. 对 于 大 数据 量 写 操作 ，RAID 3、RAID 4 和 RAID 5 拥有 同样 的 吞吐 量 。 

精 解 : 一 个 问题 是 镜像 和 条 带 化 之 间 如 何 互相 影响 。 假 设 要 存储 4 个 磁盘 的 数据 ， 有 8 个 磁盘 可 以 使 
用 。 你 会 先 把 磁盘 组 成 四 对 一 一 以 RAID 1 的 组 织 方 式 一 -然后 把 数据 带 状 分 布 吗 ? 还 是 创建 两 组 4 磁盘 系 
列 一 一 以 RAID 0 为 组 织 方式 一 一 之 后 在 镜像 中 写 人 ? RAID 术语 把 前 者 称 为 RAID 1 +0 或 RAID 10 (“ 带 状 
镜像 ”") ， 而 把 后 者 称 为 RAID 0 + 1 或 者 RAID 01 〈“ 镜 像 带 状 分 布 " ) 。 


6. 10 ”实例 : Sun Fire x4150 服务 器 


我 们 不 但 见证 了 微 处 理 器 构架 的 创新 ， 也 见证 了 软件 交付 的 革新 。 不 像 传 统 的 软件 模型 那 
样 使 用 一 个 CD 来 销售 ， 或 者 通过 互联 网 络 安装 到 你 的 计算 机 中 ， 而 是 使 用 另外 一 种 方式 : 软件 
作为 一 种 服务 。 也 就 是 说 ， 使 用 自己 的 计算 机 ， 通 过 网 络 来 工作 ， 运 行 你 所 需要 的 软件 来 给 你 提 
供需 要 的 服务 。 最 流行 的 例子 铠 怕 是 Web searching (网 络 搜索 ) ， 但 是 还 有 那些 提供 图 像 编辑 或 
者 存储 的 服务 、 文 本 处 理 的 服务 、 数 据 库存 储 以 及 虚拟 世界 等 。 如 果 你 仔细 看 ， 就 会 发 现 你 的 个 
人 计算 机 上 所 使 用 的 每 一 个 程序 都 能 找到 它们 的 服务 版 本 。 

这 种 转变 导致 了 和 构建 大 的 数据 中 心 来 保存 计算 机 和 磁 
熏 中 运行 的 成 千 上 万 的 外 部 用 户 的 服务 。 如 果 计 算 机 被 设 
计 成 数据 中 心 ， 计 算 机 应 该 是 个 什么 模样 ? 这 些 计算 机 肯 
定 没有 显示 器 和 键盘 。 很 明显 ， 假 设 数据 中 心 具 有 10 000 
个 这 样 的 机 器 ， 除 需要 考虑 价格 和 性 能 外 ， 空 间 效 率 以 及 
功 耗 效率 对 于 数据 中 心 来 说 是 相当 重要 的 。 

一 个 相关 的 问题 是 ， 这 样 的 一 个 数据 中 心 的 存储 该 是 
什么 样 ? 虽然 有 很 多 的 可 选 方案 ， 一 个 流行 版 本 是 在 每 个 
处 理 器 和 内 存 中 包含 磁盘 ， 使 其 作为 构建 一 个 大 系统 的 基 
本 单元 。 为 了 克服 可 靠 性 问题 ， 应 用 程序 自身 具有 很 多 的 
副本 ， 而 且 应 用 程序 负责 保持 各 个 副本 之 间 的 一 致 性 并 从 
错误 中 恢复 。 

IT 工业 在 为 数据 中 心 而 设计 的 计算 机 在 物理 设计 方面 
很 大 程度 上 达成 了 一 致 ， 尤 其 对 于 数据 中 心 用 来 放 计算 机 
的 机 架 来 说 形成 了 一 些 标 准 。 最 流行 的 是 19 英寸 的 机 架 ， 
这 些 机 架 是 19 英寸 宽 (482.6 mm) 。 为 这 些 机 架 而 设计 的 
计算 机 ， 被 自然 地 标记 为 机 架 固定 件 (rack mount) ， 但 是 
也 被 称 为 子 机 架 或 者 被 称 为 架子 或 搁 板 (shelf) 。 由 于 机 架 
中 传统 的 格 挡 为 匹配 1. 75 英寸 的 (44. 45 mm) 搁 板 是 分 离 
的 ， 这些 间隔 通常 被 称 作 机 架 单元 或 者 单元 〈U) 。 最 流行 
的 19 英寸 的 机 架 是 42U 高 ， 即 42x1. 75 或 者 73.5 英寸 高 。 
搁 板 的 深度 各 式 各 样 。 

因此 ， 最 小 的 机 架 固 定 件 (计算 机 ) 是 19 英寸 宽 ， 
1. 75 类 寸 高 ， 通 常 被 称 为 1U 计算 机 或 者 1U 服务 器 。 鉴 于 图 6-15 一 个 标准 的 具有 42 1U 服务 器 
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它们 的 尺寸 ， 给 它们 到 名 为 “比萨 盒子 "。 图 6-15 说 明了 nyo 的 19 vite 
一 个 标准 的 具有 42 个 1U 服务 器 的 机 架 。 i 


图 6-16 所 示 为 Sun Fire x4150，1U 服务 器 的 例子 。 最 07mar06/cbbd_news_07mazi06.php。 
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大 配置 的 17 盒子 包含 以 下 内 容 : 
es 8 个 2.66 GHz 处 理 器 ， 遍 及 2 个 插 槽 (2 个 Intel Xeon 5345) 
e 64 GB 的 DDR2-667 DRAM，,， 遍及 16 个 4GB FBDIMM 
e 8 个 15 000 RPM 73 GB SAS 2.5 英寸 磁盘 驱动 器 
。 1 个 RAID 控制 器 (支持 RAID 0、RAID 1、RAID 5 和 RAID 6) 
e 4 个 10/100/1000 以 太 网 口 
。 3 个 PCI Express x8 接口 

。 4 个 外 部 和 1 个 内 部 USB 2.0 接口 











ate 


2 个 元 余 的 电源 


3 个 PCI Express 揪 模 








管理 网 络 接 口 卡 2 个 USB 端口 


系统 状态 LED 指 示 灯 管理 串 行 4 个 Gigabit NIC 视频 (接口 ) 





图 6-16 Sun Fire x4150 1U 服务 器 的 前 面 和 后 面 
尺寸 是 1.75 英寸 高 溢 于 19 英寸 宽 。8 个 2.5 英寸 的 磁盘 可 以 从 驱动 器 的 前 端 放 进 去 。 右 上 角 是 一 个 DVD 
和 两 个 USB 接口 。 图 下 方 标识 着 服务 器 后 面 的 一 些 条 目 。 服务 器 具有 宛 祭 的 电源 以 及 风扇 ， 以 便服 务 器 在 
一 个 模块 出 现 故 障 时 可 以 持续 工作 。 


图 6-17 展示 了 主板 上 芯片 的 连接 以 及 带宽 。 图 6-9 和 6-10 描述 了 Intel 5345 的 IO 芯片 组 ， 
图 6-5 描述 了 Sun Fire x4150 中 的 SAS 磁 租 。 

为 了 解释 6. 8 节 中 的 WO 系统 设计 中 提 到 的 几 点 建议 ， 我 们 实施 了 一 个 性 能 评价 的 简单 实 
例 ， 为 一 个 假设 的 应 用 找 瓶 颈 。 
MO 系统 的 设计 

对 于 Sun Fire x4150 作 以 下 假设 

。 用 户 程 序 的 每 个 1O 操作 需要 使 用 200 000 条 指令 。 

。 每 个 LO 操作， 操作 系统 平均 需要 100 000 条 指令 。 
负载 由 64 KB 的 读 组 成 。 
每 秒 钟 ， 每 个 处 理 峰 执行 10 亿 条 指令 。 
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为 一 个 满 负载 的 Sun Fire x4150 中 的 随机 读 和 顺序 读 ， 计 算 最 大 的 可 以 得 到 的 IO 率 。 如 果 
存在 以 下 磁盘 : 假设 读 操作 总 是 在 一 个 空闲 的 磁 司 上 先行 (例如 ， 和 忽略 磁盘 的 冲突 )， 而且 
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图 6-17 Sun Fire x4150 服务 器 的 逐 辑 连接 以 及 模块 之 间 的 带宽 
3 个 PCIe 连接 器 允许 x16 板子 被 插入 ， 但 是 仅仅 为 MCH 提供 8 路 的 带宽 。 
资料 来 源 : “SUN FIRE™ X4150 AND X4450. SERVER ARCHITECTURF， 中 的 图 5 (参见 www.sun comy 
servers/ x64/ x4150/ ) 。 
首先 找到 单个 处 理 器 的 I/O 率 。 每 个 WO 具有 200 000 条 用 户 指令 而 且 有 100 000 条 0S 指 
令 。 所 以 
1 x 10 


人 率 = 指令 执行 ; bb 仿 A 
单个 处 理 器 的 最 大 1/O 率 指令 执行 速率 /每 个 IO 的 指令 (200 + 100) x 10 


单个 Intel 5345 插 术 具有 4 个 处 理 器 ， 它 可 以 执行 13 333 个 IOPS。 两 个 播 楼 具有 8 个 处 理 器 可 以 
执行 26 667 个 IOPS。 
对 于 图 6-5 中 的 2.5 英寸 磁 枪 SAS 中 随机 读 和 顺序 读 ， 我 们 来 计算 每 个 磁 肯 的 IOPS。 假 设 很 
多 情况 下 ( 见 6.3 节 ) ， 不 使 用 磁 僵 生产 商 的 平均 寻 道 时 间 。 仅仅 使 用 这 个 值 的 /4， 单 个 磁 旨 
的 随机 读 所 需要 的 时 间 是 四 
每 个 磁 胡 LO 的 访问 时 间 = 寻 道 + 旋转 时 间 + 传输 时 间 


= 3333(IAOvs) 


_2.9 64 KB 
= ms br 


= 3. 3 ms 
因此 ， 每 个 磁盘 可 以 完成 1000 ms/3. 3 ms 或 者 每 一 秒 完 成 303 个 V6。 而 日 每 秒 钟 8 个 磁盘 
执行 2424 个 随机 读 操 作 。 
对 于 顺序 读 操作 ， 传输 大 小 被 磁盘 的 带宽 分 割 如 下 : 
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(112 MB/s)/64 KB = 1750 IOPS 
8 个 磁盘 可 以 执行 14 000 个 顺序 的 64 KB 读 操 作 。 
我 们 需要 研究 ， 是 否 从 磁盘 到 内 存 和 处 理 器 的 路 径 是 个 瓶颈 。 从 RAID 卡 到 北桥 芯片 的 PCI 
Express 之 间 的 连接 开始 ，PCle 的 每 个 线 都 是 250 MB/s， 所 以 8 线 宽 的 可 达到 2 GB/s。 
PCI 带宽 2 x 10  _ 31250(1/0/s) 


aa 


POle 允 的 最 六 OO 于 = 答 1/O 的 守节 粗 ”64 X107 

8 个 磁盘 顺序 传输 仅 使 用 PCle x8 链 路 的 一 半 的 带宽 。 

一 旦 数据 到 达 MCB ， 需 要 被 写 人 DRAM。 一 个 DDR2667 MHz 的 FBDIMM 的 带宽 是 5 336 MB/s。 
一 个 DIMM 可 以 执行 

(5336 MB/s)/64 KB = 83 375IOPS 

即使 仅仅 有 一 个 DIMM， 内 存 也 不 会 成 为 瓶颈 ， 况 目 Sun Fire x4150 中 有 16 个 DIMM。 

这 个 链 路 的 最 后 一 站 是 连接 到 Intel 5345 插 槽 的 北桥 集线器 的 前 端 总 线 (Front Side Bus) 。 它 
的 峰值 带宽 是 10. 6 GEB/s， 但 是 由 7. 10 节 知 道 ， 可 以 得 到 的 带宽 不 会 高 于 峰值 的 一 半 。 每 个 IO 
的 传输 率 是 64 KB， 所 以 

FSB 的 最 大 VO 速率 = 总线 带宽 /每 个 IO 的 字 节 数 =5.3 x10”/(64 x10’) =81 540 (IOvs) 

每 个 插 槽 有 一 个 前 端 总 线 ， 所 以 双 FSB 的 峰值 超过 150 000 IOPS， 所 以 FSB 还 是 不 会 成 为 瓶颈 。 

因此 ， 一 个 完全 配置 的 Sun Fire x4150 可 以 支持 8 个 磁盘 的 峰值 带宽 ， 支 持 磁 盘 中 每 秒 
14 000 次 顺序 读 操作 或 者 2424 次 随机 读 操 作 。 

注意 ， 这 个 例子 作出 了 很 多 简化 的 假设 。 在 实际 中 ， 很 多 这 些 简化 对 于 IO 密集 型 的 应 用 程 
序 来 说 是 不 成 立 的 。 鉴 于 此 ， 运 行 实际 的 负载 或 者 相关 的 基准 测试 通常 是 评价 IO 性 能 的 唯一 现 
实 的 途径 。 

在 本 节 一 开始 就 提 到 ， 很 多 新 数据 中 心 关心 功 耗 、 面 积 ， 也 关心 造价 和 性能。 图 6-18 展示 
了 一 个 完全 配置 的 Sun Fire x4150 服务 器 所 需要 的 峰值 功 耗 和 空闲 功 耗 。 我 们 试 着 寻找 能 够 节省 
Sun Fire x4150 功 耗 的 其 化 方案 。 











单个 intel 2. 66Ghz E5345 捅 槽 ，Intel 
5000 MCBAIOH 芯片 组 ， 以 去 网 控制 154W i 


4 GB DDR2 -667 $300 FBDIMM 
73 GB SAS 15K 磁 奶 驱动 器 


图 6-18 一 个 全 面 配 置 的 Sun Fire x4150 服务 器 的 空闲 功 耗 和 峰值 功 耗 
使 用 29 个 不 同 的 配置 来 运行 SPBCJBB 做 这 些 实验 ， 这 样 峰值 功 耗 可 能 在 运行 不 同 的 应 用 程序 时 表现 由 
(资料 串 源 : www. sun. com/servers/x64/x4150/ cajc ) 


0 系统 的 功 耗 评价 
重新 配置 Sun Fire x4150 以 减 小 功 耗 ， 假设 上 一 个 例子 中 的 负载 是 1U 服务 器 中 唯一 的 活 
符 案 ” 


为 了 得 到 像 前 一 个 例子 中 那样 每 秒 有 2424 次 随机 的 64 KB 的 读 操 作 ，8 个 磁盘 和 PCI RAID 
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控制 器 我 们 全 部 需要 。 通 过 上 面 的 计算 ,一 个 DIMM 可 以 支持 超过 80 000 IJOPS， 所 以 我 们 可 以 节 
省 内 存 的 功 耗 。Sun Fire x4150 最 少 有 两 个 DIMM 内 存 ， 所 以 我 们 可 以 节省 14 个 4GB 的 DIMM 的 
功 耗 (以 及 造价 )。 一 个 插 模 可 以 支持 13 333 IOPS， 所 以 我 们 可 以 节省 一 个 Intel E5345 插 梭 。 使 
用 图 6-18 中 的 数据 ， 系 统 的 总 体 功 耗 现在 是 : 
空闲 功 耗 (随机 读 ) = 154 +2x10+8x8+15 = 253W 
峰值 功 耗 (随机 读 ) = 215+2xll+8x8+15 = 316W 
功 耗 减少 了 1.6 ~ 1.7 信 。 
原始 系统 每 一 秒 完成 14 000 次 64 KB 顺序 读 操作 。 我 们 仍然 需要 所 有 的 磁盘 以 及 磁盘 控制 
器 ,而 且 相 同 数目 的 DIMM 可 以 处 理 更 高 的 负载 。 这 个 工作 负载 超过 了 单个 Intel E5345 插 槽 的 
处 理 功 耗 ， 所 以 我 们 需要 第 二 个 播 槽 。 
空闲 功 耗 (随机 读 ) = 154 +22 +2x10+8x8+15 = 275W 
峰值 功 耗 (随机 读 ) = 215 +79 +2xll+8x8+15 = 395W 
功 耗 减少 了 1.4 ~ 1.5 倍 。 


6.11 高 级 主题 网络 

不 像 其 他 LO 设备 ， 网 络 越 来 越 受 到 人 们 的 关注 ， 有 很 多 关于 网 络 的 书 和 课程 。 对 于 没有 学 
过 网 络 方面 课程 也 没有 看 过 网 络 方面 图 书 的 读者 ， 光 盘 中 的 6. 11 节 给 出 了 有 关 主 题 和 术语 的 一 
个 快速 浏览 ， 包 括 互联 网 络 、0SI 模型 、 协 议 族 (比如 TCP/IP)、 远 程 网 络 (如 ATM)、 局 域 网 
(如 以 太 网 ) ， 以 及 无 线 网 络 (如 IEEE 802. 11 ) 。 


6. 12 ” 雇 误 与 陷阱 

谬误 : 磁盘 的 平均 故障 时 间 (MTTF) 为 1200 000 小 时 ， 即 近 140 年 ， 所 以 磁盘 实际 上 不 会 
有 故障 。 

现今 的 磁盘 厂商 的 市 场 策略 会 误导 用 户 。 这 样 的 MTTF 是 如 何 计算 出 来 的 ? 早期， 制造 商 要 
把 上 于 块 磁盘 放 到 屋子 里 ， 让 其 运行 几 个 月 ， 然 后 计算 出 现 故障 磁盘 的 数目 。 他 们 用 所 有 磁盘 运 
行 的 总 小 时 数 的 累加 和 除 以 出 现 故 障 的 磁盘 的 数目 来 计算 MTTF 

问题 在 于 这 一 数值 远 远 超 过 了 磁盘 的 使 用 寿命 ， 一 般 预 计 为 5 年 或 者 43 800 小 时 。 要 使 这 么 
长 的 MYTF 站 得 住 脚 ， 磁盘 厂 商 辩解 说 该 计算 相当 于 用 户 购买 磁盘 ， 然 后 5 年 《设计 的 磁盘 使 用 
寿命 ) 更 换 一 次 。 这 一 声明 表示 ， 如 果 很 多 顾客 (以 及 他 们 的 曾孙 ) 在 接 下 去 的 一 个 世纪 里 都 
这 样 做 ,平均 更 换 27 次 才 可 能 出 现 故障 ， 即 大 约 140 年 。 

一 个 更 有 用 的 测量 办 法 是 一 年 中 出 现 故 障 磁盘 所 占 的 百分比 ， 称 为 年 失效 率 (annual failure 
rate，AFR) 。 假 没有 1000 个 MTTF 为 1 200 000 小 时 的 磁盘 ， 每 天 24 小 时 都 在 使 用 。 如 果 你 用 可 
靠 性 相同 的 新 磁盘 来 替代 发 生 故 障 的 磁盘 ， 每 年 (8760 小 时 ) 出 现 故 障 的 磁盘 数 为 

故障 磁盘 数 = (1000 个 磁盘 x 8760 小 时 / 磁盘)/(1200 000 小 时 /故障 ) = 7.3 

换个 说 法 ，AFR 的 值 是 0.73% 。 磁 盘 生 产 商 开始 引用 AFR 的 同时 ， 也 为 用 户 提供 MTTB， 
给 用 户 留 下 他 们 的 产品 优良 的 印象 。 

谓 误 : 实际 的 磁盘 故障 率 和 规格 书 中 声明 的 一 至 

最 近 的 两 项 研究 评估 了 大 量 磁盘 ， 目 的 是 检查 实际 结果 和 规格 之 间 的 关系 。 其 中 一 项 研究 
了 将 近 100 000 个 ATA 以 及 SCSI 磁盘 ， 他 们 标 称 其 MTTF 为 1 000000 ~] 500 006 小 时 或 者 说 具有 
.0% ~0.8% 的 AFR。 他 们 发 现 2% ~4% 的 AFR 是 常见 的 ,通常 比 设 定 的 故障 率 高 3 ~5 信 
[ Schroeder 和 Cibson，2007 ] 。 另 一 项 研究 了 100 000 个 ATA 磁盘 ， 这 些 磁盘 标 称 具 有 1. 5% 的 
AFR， 以 及 在 第 一 年 中 ,磁盘 故障 率 为 1.7% ， 到 第 三 年 ， 磁盘 的 故障 率 上 升 到 8.6% ， 也 就 是 
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说 大 约 是 规格 书 中 指定 的 故障 率 的 6 倍 之 多 [Pinheiro、Weber 和 Barroso，2007 ] 。 

衣 误 : GB/s 的 互联 网 络 可 以 每 秒 传输 1 GB 的 数据 。 

首先 ， 你 不 可 能 100% 利用 任何 计算 机 资源 。 对 于 总 线 来 说 ， 能 获得 峰值 带宽 的 70% ~ 80% 
就 算是 幸运 的 。 传 输 地 址 的 时 间 、 应 答 信 和 号 的 时 间 、 等 待 繁 伦 总线 而 阻塞 的 时 间 都 是 你 不 能 
100% 利用 总 线 的 原因 。 

其 次 ， 存 储 器 件 的 单位 GB 和 带宽 每 秒 G 字 节 的 定义 不 一 致 。 像 在 6.7 节 中 讨论 过 的 一 样 ， 
LO 带宽 的 测量 通常 是 以 10 为 底 的 〈 也 就 是 ，1 GB/s =10” 字 节 / 秒 ) ， 而 1 GB 的 数据 通常 是 以 2 
为 底 来 测量 的 (也 就 是 ，1 GB =2 “ 字 节 )。 这 种 区 别 到 底 有 多 大 呢 ? 如 果 我 们 能 100% 使 用 带宽 
传输 时 间 ， 那 么 1 GB/s 的 总 线 传输 1 GB 的 数据 的 时 间 实 际 上 等 于 

2”"/10 =1 073 741 824/1 000 000 000=1.07 s 

陷阱 : 试图 仅仅 提供 互联 网 络 的 特性 ， 而 忽视 端 到 端的 情形 。 

涉及 的 问题 是 ,假设 低层 次 的 特性 只 能 够 在 最 高 层次 上 得 到 ， 因 此 仅仅 满足 部 分 的 通信 和 需 
求 。Saltzer、Reed 和 Clark [1984] 给 出 了 端 到 端 问题 (end to end argument) ， 如 下 . 

只 有 获得 处 于 通信 系统 的 另 一 端的 应 用 程序 的 相关 知识 以 及 应 用 程序 的 帮助 ， 被 讨论 的 
《被 请 求 的 ) 功能 才能 够 被 完全 而 且 正 确 好 描述。 因此 ， 那 种 假设 被 请 求 的 功能 作为 通信 系统 自 
身 一 部 分 的 特性 是 不 可 能 的 。 

关于 这 一 陷阱 的 一 个 实例 是 MIT 大 学 中 使 用 几 个 网 关 的 一 个 互联 网 络 ， 每 个 网 关 从 另 一 个 
网 关 得 到 校 验 和 给 另 一 个 网 关 。 应 用 程序 的 编程 人 员 假 定 校 验 和 能 保证 正确 性 ， 错 误 地 以 为 每 
个 网 关内 存 中 保存 的 消息 被 保护 得 很 好 。 当 一 个 网 关 产 生 了 瞬间 故障 : 故障 表现 为 每 传输 100 万 
字 节 ， 其 中 的 一 对 字 节 交换 。 随 着 时 间 的 推移 ， 一 个 操作 系统 的 源 代码 通过 这 个 网 关 被 重复 传 
输 ， 因 此 破坏 了 代码 。 唯 一 的 解决 方法 是 : 通过 与 程序 清单 列表 对 比 ， 手 工 修复 代码 ， 纠 正 被 破 
坏 的 代码 ! 要 是 在 终端 系统 中 运行 程序 ， 计 算 校 验 和 以 及 做 校 验 ， 安 全 性 就 会 得 到 保证 。 

要 使 中 间 状 态 的 校 验 是 有 用 的 ， 得 假设 端 到 端的 校 验 是 可 行 的 。 端 到 端的 校 验 能 查 出 两 个 
节点 之 间 出 错 了 ， 但 是 却 不 知道 问题 出 在 哪里 。 中 间 的 校 验 可 以 发 现 哪 个 模块 出 错 了 。 这 两 种 都 
需要 修复 错误 。 

附 所 : 把 CPU 的 功能 向 LO 处 理 器 转移 ， 没 有 经 过 仔细 的 分 析 就 期 望 提高 性 能 。 

仿 管 合理 使 用 1O 处 理 器 的 确 能 提高 人 性能， 还 是 有 很 多 误导 人 的 陷阱 。 这 个 雇 误 的 一 个 党 见 
实例 是 使 用 智能 LO 接口 ， 由 于 启动 一 次 VO 请 求 需要 较 高 的 开销 ， 这 会 使 它 比 处 理 器 直接 控制 
的 VO 活动 具有 更 长 的 时 延 (尽管 这 样 将 使 处 理 器 充分 空闲 ， 系统 否 吐 量 可 能 还 会 有 所 提高 )。 
更 为 普遍 的 情况 是 ，1/O 处 理 器 比 主 处 理 器 性 能 低 ， 系统 性 能 会 下 降 。 结 果 是 少量 的 主 处 理 器 时 
间 被 大 量 的 VO 处 理 器 时 间 所 替代 。 工 作 站 的 设计 者 经 常 看 到 这 两 种 现象 。 

Myer 和 Sutherland [1968] 写 了 - -篇 经 典 文章 讨论 WO 控制 器 的 复杂 性 和 性 能 之 间 的 平衡 。 
借用 宗教 概念 里 的 “转世 轮回 ” ， 他 们 意识 到 他 们 陷 人 一 个 循环 ， 不 断 增加 IO 处 理 器 的 能 力 ， 
直到 它 自己 又 需要 一 个 简单 的 协 处 理 器 ; 

我 们 首先 采用 了 一 个 简单 的 策略 ， 然 后 添加 一 些 我 们 觉得 可 能 提高 机 器 性 能 的 命令 和 特性 ， 
逐渐 地 ，|[ 显示 ] 处 理 器 变 得 越 来 越 复杂 ……… 最 后 显示 处 理 器 变 成 一 个 完整 的 带 有 一 些 特 别 图 像 
马 能 的 羽 划 丰满 的 计算 机 。 然 后 奇怪 的 事情 发 生 了 。 我 们 被 迫 给 处 理 器 加 上 了 辅助 的 处 理 器 ， 而 
辅助 处 理 器 本 身 也 变 得 越 来 越 复杂 。 这 时 我 们 才 发 现 烦 人 的 真相 。 设计 一 个 显示 处 理 器 变 成 了 
不 会 结束 的 循环 过 程 。 事 实 上 ， 我 们 发 现 该 过 程 是 如 此 令 人 肖 趴 ， 于 是 我 们 称 其 为 “ 转 电 夫 
回 ”。 

陷阱 : 使 用 磁带 来 备份 磁盘 。 

这 既是 一 个 雇 误 也 是 一 个 陷阱 。 磁带 作为 计算 机 系统 的 一 个 部 分 这 个 历史 和 磁盘 的 历史 一 
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样 长 ， 因 为 它 使 用 和 磁盘 类 似 的 技术 。 因 此 历史 上 也 有 相同 的 改进 密度 。 历 史上 著名 的 磁盘 和 磁 
带 的 性 价 比 不 同 在 于 ， 一 个 密封 的 、 旋 轻 的 磁盘 访问 时 延 比 顺序 的 磁带 短 ， 但 是 磁带 上 可 缉 下 来 
的 磁带 轴 意 味 着 许多 磁带 可 以 由 一 个 读 写 头 来 使 用 ， 磁 带 可 以 很 长 ， 因 此 容量 很 大 。 所 以 ， 过 去 
一 个 磁带 就 可 以 容纳 许多 磁盘 的 容量 ， 而 且 它 比 磁盘 每 个 GB 便宜 10 ~ 100 倍 ， 因 此 磁带 是 一 个 . 
很 有 用 的 备份 媒介 。 

一 个 主张 是 磁带 必须 紧 跟 磁盘 ， 因 为 磁盘 的 创新 能 够 帮助 磁带 的 创新 。 这 个 主张 很 重要 ， 因 
为 磁带 的 市 场 太 小 ， 无 力 支 持 单独 的 研究 和 开发 代价 。 市 场 小 的 一 个 原因 则 是 台式 机 的 用 户 通 
常 不 把 磁盘 内 容 备 份 到 磁带 上 ， 所 以 台式 机 是 目前 磁盘 的 最 大 市 场 ， 却 是 磁带 的 小 市 场 。 

里 广阔 的 市 场 使 得 磁盘 的 发 展 比 磁 带 快 得 多 。 从 2000 年 到 2002 年 ， 容 量 最 大 的 磁盘 已 经 超 
过 了 容量 最 大 的 磁带 。 同 时 ，ATA 磁盘 的 每 GB 价格 也 要 低 于 磁带 。 磁 带 有 兼容 性 的 要 求 ， 而 磁 
副 不 存在 这 个 问题 磁带 机 需要 读 写 新 版 本 和 旧版 本 的 磁带 ， 支 持 最 近 四 代 的 格式 。 而 磁盘 是 密 
财 的 系统 ， 磁 头 只 需要 读 磁 盘 所 装 人 的 盘 片 ， 这 一 优势 解释 了 为 什么 磁盘 发 展 得 如 此 之 快 。 

今天 ， 一 些 组 织 完 全 放弃 了 磁带 ， 他 们 使 用 网 络 和 远程 磁盘 来 复制 数据 。 实 际 上 ， 许 多 公司 
剖 以 服务 的 形式 提供 了 软件 ， 该 服务 使 用 便宜 的 组 件 ， 在 多 个 站 点 间 的 应 用 层 复制 数据 。 选 择 复 
制 的 地 点 保证 了 不 会 两 边 同时 发 生 灾难 ， 这 就 使 得 及 时 的 数据 恢复 成 为 可 能 。( 磁 带 的 捉 行 性 特 
感 导致 的 男 一 个 严重 的 缺点 是 恢复 时 间 长 。 要 使 得 这 种 方案 要 在 经 济 上 可 行 ， 需 依赖 于 磁盘 容 
量 和 网 络 带宽 的 发 展 ， 而 这 两 个 已 经 获得 了 越 来 越 多 的 投资 ， 因 此 近来 磁盘 比 磁带 获得 了 更 好 
的 发 展 成 就 。 

陷阱 : 操作 系统 是 调度 磁盘 访问 的 最 好 地 方 。 

如 6.3 节 所 提 到 的 ， 像 ATA 和 SCSI 这 样 的 高 层 接口 为 宿主 操作 系统 提供 逻辑 块 地 址 。 假 设 
在 这 样 的 高 层 抽象 层 0S 可 以 得 到 的 最 好 的 性 能 是 将 逻辑 块 的 地 址 按照 递增 的 顺序 排序 。 然 而 ， 
由 于 磁盘 知道 逻辑 地 址 被 映射 到 请 区 、 磁 道上 以 及 磁 面 上 的 实际 的 物理 地 址 ,这样 通 过 调度 就 
可 以 减少 旋转 以 及 寻 道 的 时 间 。 

例如 ， 假 设 以 下 工作 负载 是 4 个 读 操 作 [Anderson，2003 ] 


操作 ”LBA 的 起 始 地 址 ”长 度 

读 724 8 

读 100 16 

读 9987 1 

读 26 128 
宿主 0S 可 能 对 4 个 读 操 作 重 新 进行 调度 ， 编 排 成 逻辑 块 的 读 操作 的 顺序 ， 

操作 。 LBA 的 起 始 地 址 ”长 度 

读 26 128 

读 100 16 

读 724 8 

读 9987 1 


依赖 于 数据 在 磁盘 中 的 相对 位 置 ， 如 图 6-19 所 示 ， 重 新 编排 V0 顺序 可 能 会 使 情况 变 得 更 
往 。 磁 盘 调 度 的 读 操作 在 磁盘 的 3/4 的 旋转 周期 就 全 部 完成 ， 而 操作 系统 调度 的 读 操作 花费 了 3 
个 旋转 周期 。 
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陷阱 ， 采 用 IO 系统 一 部 分 的 传输 峰值 来 表示 性 能 或 进行 性 能 比较 。 

IO 系统 中 有 很 多 部 件 ， 从 设备 到 控制 器 再 到 总 线 ， 都 有 它们 自己 的 峰值 带宽 。 在 实践 中 ， 
这 些 峰 值 带宽 往往 无 法 实现 ， 这 是 因为 这 些 峰 值 带宽 的 测量 通常 基于 对 系统 不 切实 际 的 假定 ， 
或 者 其 他 的 系统 局 限 导致 峰值 带宽 不 可 能 实现 。 例 如 ， 在 提 到 总 线性 能 时 ， 峰 值 传输 速度 的 计算 
通常 建立 在 一 个 不 可 能 实现 的 内 存 系统 之 上 。 对 于 网 络 系统 ， 启 动 通信 的 软件 开销 被 忽略 掉 了 。 


一 主机 上 顺序 的 队列 /操作 系统 顺序 的 队列 
一 卫 动 顺序 的 队列 





6-19 给 出 了 OS 调度 与 磁盘 调度 访问 的 例子 ， 标 记 为 宿主 顺序 和 驱动 顺序 
前 者 完成 4 个 读 操作 需要 3 个 旋转 周期 ， 而 后 者 完成 4 个 读 操作 仅仅 在 一 个 3/4 的 旋转 周期 即 可 完成 
(资料 来 源 : Anderson [2003] ) 。 
一 个 32 位 、33 MHz 的 PCI 总 线 具 有 大 约 133 MB/s 的 峰值 带宽 。 实 际 上 ， 即 使 是 比较 长 的 传 


输 ， 实 际 的 内 存 系统 也 很 难 维持 超过 大 约 80 MB/s 的 速度 。 
Amdahl 法 则 提醒 我 们 LO 系统 的 吞吐 量 将 被 VO 路 径 上 最 低 性 能 的 部 件 所 限制 。 


6. 13 本章 小 结 

采用 几 个 不 同 的 特性 评估 IO 系统 性 能 ,可靠 度 ; 所 支持 ZO 设备 的 多 样 性 ; IO 设备 的 最 
大 数目 ; 成 本 ; 性 能 延迟 时 间 和 吞吐 量 。 这 些 目标 导致 提供 WO 设备 接口 的 方案 多 样 化 。 在 低 端 
和 中 端 系 统 中 ， 采 用 缓冲 区 的 DMA 是 主流 的 传输 机 制 。 而 在 高 端 系统 中 ， 时 延 和 带宽 同样 重要 ， 
成 本 是 其 次 。 具 有 有 限 的 缓冲 的 多 通道 VO 设备 通常 被 刻画 为 高 端 IO 系统 。 典 型 地 ， 随 着 系统 
的 增 大 ， 能 在 任何 时 间 访 问 VO 设备 上 的 数据 (高 可 用 性 ) 变 得 越 来 越 重要 。 结 果 是 当 我 们 扩 
大 系统 时 ， 元 余 和 纠 错 机 制 变 得 越 来 越 普 遍 。 

人 们 对 存储 器 和 网 络 的 需求 正 以 史无前例 的 速度 增长 ， 部 分 原因 是 人 们 对 实时 信息 的 需求 
日 趋 增 大 。 一 项 估计 认为 2002 年 产生 的 信息 总 量 为 5 千 焰 兆 字 节 一 一 相当 于 美国 国会 图 书馆 拥 
有 的 文本 的 500 000 份 副 本 ， 而 且 每 3 年 世界 的 信息 总 量 翻 一 番 [Lyman 和 Varian，2003 ] 。 

LO 的 未 来 的 发 展 方向 包括 扩大 有 线 网 络 和 无 线 网 络 的 范围 ， 使 几乎 每 个 设备 都 拥有 一 个 IP 
地 址 ， 在 存储 系统 中 扩展 快 闪 式 存储 器 的 角色 。 

LO 系统 的 性 能 ,无论 是 通过 带宽 还 是 时 延 来 度量 ,都 取决 于 设备 和 内 存 之 间 路 径 上 的 所 有 
要 素 ， 包 括 产 生 1/O 命令 的 操作 系统 。 总 线 的 带宽 、 内 存 和 设备 决定 了 进出 设备 的 最 大 传输 速 
度 。 同 样 ， 延 迟 时 间 由 设备 的 延迟 时 间 、 内 存 系统 或 者 总 线 带 来 的 延迟 决定 。 有 效 带 帘 和 响应 时 
延 依赖 于 路 径 中 其 他 可 能 引起 资源 冲突 的 1O 请 求 。 最 后 ， 操 作 系统 变 成 一 个 瓶颈 。 在 某 些 情况 
下 ，0OS 需要 很 多 时 间 才 能 把 1O 请 求 从 用 户 程 序 转交 给 LO 设备 ， 从 而 导致 很 大 的 延 时 。 在 其 
他 情况 下 ， 操 作 系 统 在 很 大 程度 上 限制 了 LO 带宽 ， 因 为 操作 系统 能 够 支持 并 发 1/O 操作 的 数量 
是 有 限 的 。 
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记 住 ， 尽 管 性 能 有 助 于 LI/O 系统 的 销售 ， 但 是 用 户 必 然 关 心 VO 系统 的 可 靠 性 和 容量 。 


局 6.14 拓展 阅读 
LO 系统 的 历史 是 引人入胜 的 。 光 盘 中 的 6. 14 节 给 出 了 磁盘 、RAID 闪存 、 数 据 库 、 因 特 网 
和 万 维 网 的 一 个 简短 的 历史 ， 以 及 以 太 网 如 何 持续 压制 它 的 挑战 者 。 


6. 15 ”练习 题 


习题 6. 1 


图 6-2 根据 设备 的 行为 、 合 作者 和 数据 速率 ， 描 述 了 很 多 00 设备 ， 然 而 ， 这 些 分 类 通常 没有 提供 一 
个 系统 完整 的 数据 流 图 。 研 究 下 面 的 这 些 设备 该 如 何 分 类 。 


a. 视频 游戏 
b. 手持 GPS 


6.1.1 15] <6.1> 对 于 上 表 中 的 设备 ， 指 出 VO 接口 ， 并 根据 设备 的 行为 和 合作 者 将 它们 分 类 。 

6.1.2 [5] <6. 1 > 对 于 这 些 在 上 一 个 问题 中 被 指出 的 接口 ， 估 计 它 们 的 数据 速率 。 

6. 工 3 [5j <6.1> 对 于 这 些 在 上 一 个 问题 中 被 指出 的 接口 ， 确 定 是 否 数据 速率 或 者 操作 速率 是 最 好 的 人 性 能 
尺度 。 


习题 6. < 


故障 间 平 均 时 间 (MTBF) 、 替 换 平 均 时 间 〈( MTTR) 和 平均 失效 时 间 (MTTF) ， 这 些 对 于 评价 存储 资 
源 的 可 靠 性 以 及 可 用 性 来 说 都 是 很 有 用 的 度量 。 研 究 这 些 概 念 ， 并 且 使 用 这 些 度量 回答 关于 设备 的 问题 。 
和 A Mk 

5 年 


h. 10 年 5 天 
一 一- ~- 大 
6.2.1 [5] <6.1，6.2 > 为 表 中 的 每 个 设备 计算 MTBF 
6.2.2 [15] <6.1，6.2 > 为 表 中 的 每 个 设备 计算 可 用 性 。 
6.2.3 [5] <6.1， 6.2 > 在 实际 情况 下 ， 当 MTTR 接近 0. 1 s 时 ， 可 用 性 如 何 ? 
6.2.4 [5] <6.1，6.2 > 随 着 MTTR 变 得 很 高 ， 例如 一 个 设备 很 难 修理 ， 可 用 性 如 何 ? 是 不 是 意 
味 着 设备 的 可 用 性 很 低 ? 


习题 6.3 


在 存储 设备 中 ， 读 操作 和 写 操作 的 平均 时 间 和 最 小 时 间 是 用 来 比较 设备 的 常见 手段 。 使 用 第 6 章 的 技 
术 ， 根 据 下 面 表 中 罗列 的 特性 ， 计 算 读 磁盘 以 及 写 磁 盘 有 关 的 时 间 。 









控制 器 传输 速率 
480 MB/s 






6.3.1 [10] <6.2，6.3 > 为 表 中 的 每 个 磁盘 计算 读 或 者 写 1024 个 字 节 需要 的 平均 时 间 。 

6.3.2 [10] <6.2，6.3 > 为 表 中 的 每 个 磁盘 计算 读 或 者 写 2048 个 字 节 需要 的 最 小 时 间 。 

6.3.3 [10] <6.2, 6.3 > 对 于 表 中 的 每 个 磁盘 ， 确 定性 能 的 主导 因素 - 具体 地 讲 ， 如 果 你 能 够 从 磁盘 的 某 
个 方面 提高 磁盘 的 性 能 ， 你 将 选择 哪 种 途径 ? 如 果 没 有 主导 因素 ， 解释 原因 。 
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习题 6. 4 四 
最 终 ， 存 储 系统 的 设计 需要 考虑 磁盘 尺 二 以 及 使 用 环境 。 不 同 的 情形 下 需要 不 同 的 尺寸 。 让 我 们 系统 
性 地 评价 一 下 磁盘 系统 。 探 索 不 同 的 存储 系统 应 当 如 何 被 评价 ， 通 过 根据 下 面 的 应 用 ， 回 答 相应 的 问题 。 


a. 在 线 NASA 卫星 数据 库 
b.  ” 视频 游戏 系统 


6.4.1 [5] <6.2, 6.3 > 对 于 每 种 应 用 ， 在 读 和 写 的 时 候 ， 减 少 扇 区 大 小 是 否 会 提高 性 能 ? 解释 你 的 答案 。 
6.4.2 [5] <6.2，6.3 > 对 于 每 种 应 用 ， 增 大 磁盘 器 的 旋转 速度 会 提高 性 能 ? 解释 你 的 答案 。 
6.4.3 [5 <6.2，6.3 > 对 于 每 种 应 用 ,假设 MTIF 下 降 ， 增 大 旋转 速度 将 提高 系统 的 性 能 ? 解释 你 的 


答案 。 


习题 6.5 


快 内 式 存储 器 是 传统 磁盘 驱动 的 真正 竞争 者 之 一 。 根 据 下 面 的 应 用 ， 研 究 快 闪 式 存储 器 的 一 些 观点 ， 
回答 问题 。 


a. 在 线 NASA 卫星 数据 库 
b. 视频 游戏 系统 


6. 5.1 [5] <6.2，6.3，6.4 > 当 我 们 向 使 用 快 闪 式 存储 器 构建 的 固态 驱动 转移 时 ， 假 设 数据 传输 速率 保持 
恒定 ， 磁 盘 的 读 次 数 会 发 生 什么 样 的 变化 ? 

6.5.2 [10」<6.2，6.3，6.4 > 假定 造价 是 一 个 设计 因素 ， 每 种 应 用 程序 能 够 从 固态 快 闪 式 存储 器 驱动 获 
益 吗 ? 

6.5.3 [10] <6.2，6.3，6.4 > 假定 造价 不 是 一 个 设计 因素 ， 对 固态 快 内 式 存储 器 驱动 来 说 ， 每 个 应 用 程序 
是 不 合适 的 ? 


习题 6. 6 
根据 下 面 这 些 与 快 闪 式 存储 器 相关 的 性 能 ， 研 究 快 闪 式 存储 器 的 本 质 。 


数据 传输 速率 。 控制 器 传输 速率 


a. 34 MB/s 480 MB/'s 


6. 6.1 |10] <6.2,，6.3，6.4 > 计算 表 中 的 每 个 快 闪 式 存储 器 读 取 或 者 写 人 1024 个 字 节 需要 的 平均 时 间 。 
6.6.2 【10] <6.2, 6.3，6.4 > 计算 表 中 的 每 个 快 闪 式 存储 器 读 取 或 者 写 人 512 个 字 节 需要 的 最 小 时 间 。 
6.6.3 |10] <6.2, 6.3,，6.4 > 图 6-6 中 展示 的 快 闪 式 存储 器 读 和 写 的 访问 时 间 随 着 快 闪 式 存储 器 容量 的 增 
大 而 增加 。 根 据 计 算 ， 是 这 样 的 吗 ? 是 什么 因素 导致 这 样 的 结果 ? 
习题 6. 7 
V0 的 执行 可 以 是 同步 的 也 可 以 是 异步 的 ， 关 于 下 面 的 外 设 ， 研 究 这 两 种 方式 的 不 同 ， 回 答 相应 的 
问题 。 


~ z z z z 忌 标 
b. 内 存 控制 器 


《7.1 [5] <6.5 > 对 于 表 中 的 每 个 外 设 来 说 ，CPU 和 外 设 之 间 通 信使 用 哪 种 总 线 最 合适 ， 是 异步 的 总 线 ， 


第 6 章 ”存储 器 和 其 他 I/O 主题 389 


还 是 同步 的 总 线 ? 

6.7.2 [5] <6.5 > 对 于 表 中 的 每 个 外 设 来 说 ，CPU 和 外 设 之 间 采 用 长 的 、 同 步 总 线 连 接 将 会 引起 什么 
问题 ? 

6.7.3 [5] <6.5> 对 于 表 中 的 每 个 外 设 来 说 ，CPU 和 外 设 之 间 采 用 异步 总 线 连接 将 会 引起 什么 问题 ? 


习题 6. 8 
如 今 最 常 使 用 的 总 线 类 型 是 : FireWire (IEEE1394)、USB、PCI 以 及 SATA。 尽 管 这 四 种 总 线 都 是 异步 
的 ， 它 们 根据 各 自 的 特性 以 不 同 的 方式 实现 。 根 据 下 面 的 外 设 ， 研 究 这 些 不 同 总 线 的 结构 ， 回 答 问 题 。 


Aa. 外 部 硬件 驱动 器 (external hard drive) 
b. 键盘 


6.8.1 [5] <6.5 > 为 表 中 的 外 设 选择 一 种 合适 的 总 线 《FireWire、USB、PCI、 或 者 SATA) ， 并 且 解 释 为 什 
么 所 选 的 总 线 是 合适 ，( 见 图 6-8 ， 参 照 每 种 总 线 的 关键 特性 ) 

6. 8.2 [120] <6.5 > 使 用 网 络 或 者 图 书馆 的 资源 ， 总 结 出 每 种 类 型 总 线 的 通信 结构 。 指 出 总 线 的 控制 器 是 
什么 ? 以 及 物理 的 控制 在 哪里 ? 

6.8.3 [15] <6.5 > 总 结 每 种 总 线 的 限制 ,解释 为 什么 必须 在 使 用 时 考虑 总 线 的 这 些 限 制 ? 


习题 6.9 


通过 联合 使 用 轮 询 、 中 断 处 理 、 内 存 上 映射 以 及 特 设 的 IO 指令 来 实现 与 VO 设备 的 通信 。 联 合 使 用 这 
些 技术 ， 回 答 下 面 关 于 IO 系统 通信 的 问题 。 


a. 视频 游戏 控制 器 
b. 计算 机 显示 器 


6.9.1 [5] <6.6> 描 述 设 备 的 轮 询 。 表 中 的 哪 种 应 用 对 于 通信 中 的 轮 询 技术 是 合适 的 ? 为 什么 ? 

6.9.2 [5] <6.6> 描 述 一 下 中 断 驱 动 通信 。 对 于 表 中 每 一 种 应 用 ， 如 果 轮 询 是 不 合适 的 ， 解 释 中 断 驱 动 的 
技术 为 什么 是 合适 的 。 

6.9.3 [10] <6.6> 对 于 表 中 每 一 种 应 用 ， 概 述 内 存 映射 的 通信 。 指 出 内 存 保留 区 域 以 及 概述 它们 的 内 容 。 

6.9.4 [101 <6.6 > 对 于 表 中 每 一 种 应 用 ， 概 述 一 个 实现 指令 驱动 通信 的 设计 中 的 那些 指令 。 指 出 这 些 指 
令 以 及 指令 和 设备 之 间 的 交互 。 

6.9.5 [5] <6.6> 对 于 10 子 系统 来 说 ,使 用 内 存 映射 以 及 指令 驱动 通信 是 不 是 合适 的 ? 请 解释 原因 。 


习题 6. 10 


第 6.6 节 定义 了 一 个 8 阶段 的 中 断 处 理 步 又 。 中 断 原因 寄存 器 以 及 中 断 状态 寄存 器 一 起 使 用 为 中 断 产 
生 的 原因 以 及 为 中 断 处 理 系统 提供 了 信息 。 通 过 回答 以 下 关于 中 断 的 问题 ， 研 究 中 断 处 理 。 


a 以 太 网 控制 器 数 所 
b 鼠标 控制 


6. 10.1 [5] <6.6 > 当中 断 被 检测 出 来 时 ， 状 态 寄存 器 被 保存 ， 除 了 优先 级 最 高 的 中 断 ， 其 他 的 中 汤 都 被 禁 
止 了 。 为 什么 低 优先 级 的 中 断 被 禁止 ? 为 什么 状态 寄存 器 在 禁止 中 断 之 前 被 保存 ? 

6. 10.2 [10] <6.6 > 对 表 中 每 一 行 设备 的 中 断 按照 优先 级 排序 。 

6. 10.3 [10] <6.6 > 对 于 表 中 每 种 设备 出 现 的 中 断 ， 概 述 该 如 何 处 理 ? 

6. 10.4 [5] <6.6 > 当 一 个 中 断 被 处 理 时 ， 原因 寄存 器 的 中 断 允 许 位 没有 被 设置 将 会 发 生 什么 ? 为 了 得 到 
相同 效果 ， 中 断 掩 码 该 是 什么 值 ? 
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6. 10.5 [5] <6.6 > 很 多 中 断 处 理 系统 在 操作 系统 中 得 以 实现 。 为 了 使 得 中 断 处 理 更 有 效 ， 应 该 增加 什么 
硬件 支持 ?将 你 对 潜在 的 硬件 支持 的 解决 方案 与 功能 调用 (软件 实现 ) 相 比 较 。 

6. 10.6 [5] <6.6 > 在 一 些 中 断 处 理 的 实现 中 ， 一 个 中 断 引起 一 个 到 中 上 断 矢 量 的 立即 跳 转 。 不 是 通过 中 断 
原因 寄存 器 为 每 个 中 斯 设置 相应 的 位 ， 而 是 每 个 中 断 具 有 自己 的 中 断 向 量 。 可 以 通过 相同 的 途径 在 
系统 中 实现 相同 优先 级 的 中 断 系 统 吗 ? 这 种 方法 是 否 具 备 某 种 优势 ? 


习题 6. 11 
直接 存储 器 访问 (DMA) 允许 设备 直接 访问 存储 器 而 不 是 通过 CPU 来 访问 。 这 样 可 以 极 大 地 加 速 外 围 
设备 的 性 能 ,但 是 也 增加 了 内 存 系统 设 计 的 复杂 度 。 关 于 以 下 外 围 设备 ， 回 答 问 题 ， 研 究 DMA 的 实现 。 
-一 RE 
bh. z : : 声卡 


6.11.1 [5] <6.6 > 当 DMA 活动 时 ，CPU 是 否 释放 对 内 存 的 控制 权 ? 例如 ， 一 个 外 国 设备 可 以 直接 和 内 存 
系统 通信 ， 从 而 完全 避免 CPU 吗 ? 

6.11.2 [10] <6.6 > 上 表 中 的 外 设 中 ， 哪 种 设备 能 够 利用 DMA? 如 果 DMA 是 合适 的 , 设备 的 什么 特性 
(准则 ) 决定 了 使 用 DMA 是 合适 的 ? 

6.11.3 [10] <6.6 > 上 表 中 的 外 设 中 ， 哪 个 设备 将 会 导致 和 cache 内 容 相关 的 一 致 性 问题 的 出 现 ? 如 果 一 
致 性 问题 必须 被 解决 ， 由 什么 特性 (准则 ) 决定 ? 

6.11.4 [5] <6.6 > 将 DMA 和 虚拟 内 存 混合 起 来 ， 描 述 一 下 会 发 生 什么 问题 。 表 中 的 哪些 设备 将 会 引发 问 
题 ? 这 些 问题 该 如 何 避 免 ? 


习题 6. 12 


根据 应 用 的 不 同 ，LO 的 性 能 尺度 就 有 很 大 的 不 同 。 在 一 些 情形 下 ， 所 处 理 的 事务 主导 了 性 能 ， 数 据 
大 时 量 主 时 了 另外 一 些 应 用 的 性 能 。 根 据 下 面 的 应 用 ， 通 过 回答 下 面 的 问题 研究 WO 性 能 的 评价 。 


网 络 搜索 
b. 声音 编辑 


6. 12.1 [10] <6.7 > 对 于 表 中 的 每 个 应 用 ，LO 性 能 是 否 主导 了 系统 的 性 能 ? 

6. 12.2 [10] <6.7 > 对 于 表 中 的 每 个 应 用 ， 原 始 数据 吞吐 量 是 不 是 最 好 的 1/O 性 能 测量 尺度 ? 

6.12.3 [5] <6.7 > 对 于 表 中 的 每 个 应 用 ,使 用 被 处 理 的 事务 的 数目 是 不 是 最 好 的 LO 性 能 测量 尺度 ? 

6.12.4 [5] <6.7 > 前 两 个 问题 中 的 性 能 尺度 与 是 使 用 轮 询 还 是 中 断 驱动 的 通信 之 间 是 否 有 关系 ? 与 选择 
采用 内 存 映射 或 指令 驱动 的 VO 是 不 是 也 有 关系 ? 


习题 6. 13 


基准 程序 扮演 着 评价 和 选择 外 设 的 重要 角色 。 为 了 使 得 基准 程序 有 用 ， 基 准 程序 需要 呈现 出 和 一 个 正 
常 使 用 着 的 设备 一 样 的 特性 。 关 于 下 面 的 应 用 ， 回 答 问题 ， 研 究 基准 程序 以 及 设备 的 选择 。 


网 络 搜 索 
b. 声音 编辑 


6.13,1 [5] <6.7> 对 表 中 的 每 个 应 用 ， 当 评估 1/O 子 系统 时 ， 定 义 一 组 基准 程序 的 特性 ? 

6. 13.2 [15] <6.7 > 使 用 在 线 或 者 图 书馆 资源 ， 为 表 中 的 应 用 指定 一 组 标准 的 基准 程序 。 为 什么 基准 程序 
是 有 用 的 ? 

6. 13.3 [5] <6.7 > 在 一 个 大 系统 的 外 面 评价 其 中 的 V0 子 系统 是 否 有 意义 ? 如 何 评价 CPU? 
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习题 6. 14 
在 存储 系统 中 ，RAID 是 实现 并 行 性 以 及 完 余 性 最 受 欢迎 的 途径 。RAID 的 名 字 暗 示 了 关于 它 的 几 件 事 
情 。 结 合 下 面 的 活动 来 研究 RAID 的 这 些 方面 。 


a. 在 线 数 据 库 服务 
b. 声音 编辑 


6.14.1 [10] <6.9 > RAID 0 使 用 跳 步 (striping) 在 多 个 磁盘 间 实 现 并 行 访问 。 为 什么 跳 步 可 以 提高 磁盘 的 
性 能 ?对 于 表 中 的 每 个 活动 ， 跳 步 将 更 好 地 帮助 实现 它们 的 目标 吗 ? 

6. 14.2 [5] <6.9 > RAID 1 在 多 个 磁盘 上 镜像 数据 。 假 设 便宜 的 磁盘 具有 比 贵 磁盘 低 的 MTBF， 那 么 使 用 元 
余 廉 价 磁盘 如 何在 系统 中 取得 低 的 MTBF? 使 用 MTBF 的 数学 定义 来 解释 你 的 回答 。 对 于 表 中 的 每 
项 活动 ，RAID 1 是 否 可 以 更 好 地 帮助 它们 实现 目标 ? 

6. 14.3 [5] <6.9 > RAIDI1、RAID 3 提供 更 高 的 数据 可 用 性 (availability) ， 解 释 RAID 1 和 RAID 3 之 间 的 
折 中 。 表 中 的 每 个 应 用 是 不 是 从 RAID 3 得 到 的 益处 都 比 从 RAID 1 得 到 的 更 多 一 些 ? 


习题 6. 15 


RAID 3、RAID 4 和 RAID 5 都 使 用 了 奇偶 校 验 系统 来 保护 数据 块 。 具体 地 讲 ， 将 一 个 奇偶 块 和 一 些 数 
据 块 关联 起 来 。 下 面 表 中 每 一 行 是 数据 块 和 奇偶 块 的 值 ， 正 如 图 6-13 中 所 描述 的 。 


新 DD | Do Di pa2 






6.15.1 [10] <6.9 > 为 RAID 3 计算 新 的 奇偶 校 验 值 P'。 

6. 1S.2 [10] <6.9 > 为 RAID 4 计算 新 的 奇偶 校 验 值 P'。 

6.15.3 [5] <6.9 > 是 RAID 3， 还 是 RAID 4 效率 更 高 ? 是 否 有 什么 原因 使 得 RAID 3 比 RAID 4 更 好 一 些 ? 

6.15.4 [5] <6.9 >RAID 4 和 RAID 5 基本 使 用 相同 的 机 制 来 计算 和 存储 数据 块 的 奇偶 校 验 和 。 对 于 什么 应 
用 来 说 ，RAID 5 效率 更 高 些 ， 而 且 RAID 5 和 RAID 4 之 间 的 不 同 如 何 表现 ? 

6.15.5 [5] <6.9 > 根据 RAID 3， 随 着 被 保护 的 数据 块 尺寸 的 增 大 ，RAID 4 和 RAID 5 的 速度 随 之 增加 ， 
为 什么 是 这 样 的 ? 是 否 在 一 种 情形 下 RAID 4 以 及 RAID 5 没有 RAID 3 有 效 ? 


习题 6. 16 


因为 金融 、 在 线 存储 以 及 通信 应 用 而 产生 的 网 路 服务 器 使 得 磁盘 服务 器 成 为 关键 应 用 。 可 用 性 以 及 速 
度 成 为 磁盘 服务 器 众所周知 的 属性 ， 但 是 功 耗 变 得 越 来 越 重要 。 使 用 下 面 的 参数 ， 回 答 关于 配置 和 评估 磁 
盘 服 务 器 的 问题 。 


应 用 程序 的 指令 | 0S 指令 中 0 操作 “| “处 理 器 速度 《每 . 
让 0 探 作 的 数 月 | 的 数 让 | 全 ”| 秒 的 指令 数 ) 





6. 16.1 [10] <6.8，6. 10 > 为 随机 读 和 写 找 出 可 以 得 到 的 最 大 1/O 速率 。 忽略 磁盘 的 冲突 ， 而 且 假设 RAID 
俊 制 器 不 是 一 个 瓶 绒 。 使 用 和 6. 10 节 中 相同 的 方法 ， 并 且 所 做 的 假设 相同 。 

4 16.2 [10] <6.8，6. 10 > 假设 我 们 配置 一 个 和 6. 10 节 所 描述 的 一 样 的 Sun Fire x4150 服务 器 。 确 定 如 果 
配置 8 个 磁盘 ，LO 会 不 会 成 为 瓶颈 ? 当 把 配置 设置 为 16、4 以 及 2 个 磁盘 时 ， 情况 会 如 何 ? 
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6. 16.3 [10] <6.8，6. 10 > 确定 如 果 PCI 总 线 、DIMM， 或 者 前 端 总 线 (front side bus) 成 为 0 瓶颈 ， 使 
用 和 6. 10 节 中 相同 的 参数 以 及 相同 的 假设 计算 。 
6. 16.4 15]<6.8，6. 10 > 解释 ， 为 什么 实际 系统 倾向 于 使 用 基准 程序 或 者 实际 程序 来 评估 真实 的 性 能 ? 


习题 6. 17 


使 用 一 个 相对 完整 的 数据 来 确定 一 个 服务 器 的 性 能 是 个 比较 简单 的 任务 。 然 而 ， 当 使 用 不 司 的 供应 次 
提供 的 不 同 数据 来 比较 不 同 的 服务 器 时 ， 在 其 中 选 出 需要 的 服务 器 却 是 困难 的 。 研 究 如 何 评价 服务 器 ， 根 
据 下 面 的 应 用 来 回答 问题 。 


Web 服务 器 








6.17.1 [15] <6.8，6.10 > 对 于 上 表 中 的 应 用 ， 指 出 一 个 操作 系统 的 运行 时 特性 。 选 择 出 支持 和 习题 6. 16 
中 类 似 的 评价 性 能 的 特性 。 

6.17.2 [15] <6.8，6.10 > 对 于 上 表 中 的 应 用 ， 找 到 在 市 场 上 可 用 的 服务 器 ， 这 个 服务 器 你 认为 对 于 运行 
这 样 的 服务 是 合适 的 。 在 评价 这 个 服务 器 之 前 ， 指 出 为 什么 选择 它 。 

6.17.3 [20]<6.8，6. 10 > 使 用 第 6 章 和 习题 6. 16 中 使 用 过 的 类 似 的 尺度 (测量 ) ， 将 习题 6. 17. 2 中 的 服 
务 器 和 习题 6. 16 中 被 评价 的 Sun Fire x4150 做 比较 。 你 将 会 选择 哪个 ?是 不 是 你 的 分 析 结 果 使 你 很 
惊讶 ? 具体 地 说 ， 你 是 否 得 到 了 与 设想 不 同 的 选择 ? 

6.17.4 [15] <6.8，6.10> 指 出 一 个 标准 基准 程序 组 ， 它 将 对 于 比较 习题 6. 17. 2 中 的 服务 器 和 Sun Fire 
x4150 服务 器 是 有 用 的 。 


习题 6. 18 
必须 小 心地 解释 供应 商 所 提供 的 存储 器 的 度量 手段 和 统计 数据 ， 以 便 得 到 关于 系统 行为 的 有 意义 的 预 
测 。 下 表 为 不 同 的 磁盘 驱动 提供 了 一 些 数据 。 
Er 





6. 18. 1 [10] <6. 12 > 为 表 中 的 每 个 磁盘 计算 年 故障 率 (AFR)。 

6. 18.2 [10]<6.12 > 假设 上 表 中 的 AFR 在 磁盘 的 生命 周期 中 是 变化 的 。 具 体 地 说 ， 假 设 AFR 在 使 用 后 第 
一 个 月 是 3 倍 ， 而 且 第 5 年 开始 ， 每 一 年 变 成 2 倍 。 计 算 7 年 之 后 需要 更 换 多 少 个 磁盘 ?10 年 之 后 
又 如 何 ? 

6. 18.3 [10] <6. 12 > 假设 磁盘 越 昂 贵 ， 故 障 率 就 越 低 。 具 体 地 说 ， 比较 贵 的 磁盘 的 可 用 性 将 在 8 年 而 不 是 
5 年 后 故障 率 开 始 加 倍 。 如 果 你 的 数据 想 要 在 磁盘 中 保持 7 年 ， 你 将 需要 消费 多 少 个 磁盘 ? 如 果 数 
据 需 要 保存 10 年 又 如 何 ? 


习题 6. 19 


对 于 习题 6. 18 中 的 磁盘 ， 假 设 你 的 供应 商 提供 了 RAID 0 配置 ， 整个 配置 将 会 使 得 存储 系统 增加 70% 
的 看 吐 量 ， 而 且 RAID 1 配置 将 会 使 磁盘 的 AFR 下 降 2 倍 。 假 设 每 个 方 案 的 造价 将 是 原始 造价 的 1. 6 倍 。 
6.19.1 [5] <6.9,，6. 12 > 假设 原始 系统 的 参数 不 变 ， 你 是 否 会 推荐 升级 到 RAID 0 或 者 RAID 1， 假 设 单个 
位 盘 参 数 和 习题 6. 18 中 的 表 保持 一 致 ? 

6.19.2 [5] <6.9, 6.12 > 假设 你 的 公司 使 用 了 大 的 磁盘 场 来 运作 一 个 全 球 搜索 引擎 ， 依靠 一 些 广告 ， 升 级 
到 RAID 0 或 者 RAID 1 是 否 使 你 的 收入 模型 变 得 经 济 和 有 意义 ? 

6.19.3 [5] <6.9，6. 12 > 重 做 习题 6. 19. 2 ， 通过 运作 大 的 磁盘 场 实现 一 个 在 线 的 后 备 公司 。 基 于 你 的 服 
务 器 的 可 靠 性 ,升级 到 RAID 0 或 者 RAID 1 是 否 使 你 的 收入 模型 变 得 经 济 和 有 意义 ? 


第 6 章 存储 器 和 其 他 1/O 主题 393 


习题 6. 20 


计算 机 系统 每 天 的 评价 和 维护 工作 包含 了 很 多 在 第 6 章 中 讨论 过 的 概念 。 通 过 回答 下 面 的 问题 ,研究 

评价 系统 的 本 质 特 性 。 

6. 20.1 [20] <6.10，6. 12 > 配置 Sun Fire x4150， 使 得 它 能 为 具有 1 000 个 处 理 器 的 处 理 器 阵列 ， 提 供 10T 
字 节 的 存储 容量 ， 以 便 运行 生物 信息 仿真 的 服务 器 。 你 的 配置 应 当 最 小 化 功 耗 ， 同 时 解决 磁盘 的 知 
吐 量 以 及 可 用 性 问题 。 当 你 执行 你 的 配置 时 ， 确 保 考虑 到 最 大 仿真 的 属性 。 

6.20.2 [20] <6.10，6. 12 > 为 习题 6. 20. 1 的 磁盘 阵列 推荐 一 个 后 备 以 及 数据 历史 系统 。 对 比 磁盘 、 磁 带 
和 在 线 后 备 容 量 。 使 用 网 络 以 及 图 书馆 资源 指出 潜在 的 服务 器 。 使 用 第 6 章 描述 的 参数 描述 评估 成 
本 和 应 用 程序 的 维护 性 。 对 于 指定 的 需求 ， 比 较 应 用 的 特性 ， 选 择 参数 。 

6.20.3 [15] <6.10, 6.12 > 假设 在 习题 6. 20. 2 中 所 选择 的 系统 竞争 供应 商 允许 你 在 网 上 评价 他 们 的 系统 。 
指出 你 为 了 选择 出 最 好 的 系统 所 使 采用 的 基准 程序 。 指 出 为 了 做 决定 而 搜集 数据 ， 你 需要 的 时 间 。 

小 测验 答案 

6.2 节 B 和 C 正 确 。 

6.3 书 B 和 C 正确 。 

6.4 忆 全 部 正确 (假设 40 MB/s 与 100 MB/s 是 可 比 的 )。 

6.5 节 A 正确。 

6.6 节 A 和 B 都 正确 。 

6.7 书 A、B 和 C 均 错 误 ， 由 于 大 多 数 TPC 基准 都 包含 开销 。 

6.9 书 全 部 正确 。 
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多 核 、 多 处 理 器 和 集群 





在 大 海里 有 比 我 们 曾经 捕获 的 更 多 更 好 的 和 鱼 。 








爱尔兰 谚语 
多 处 理 器 或 集群 的 结构 
“在 月 球 的 山脉 上 ， 沿 着 阴影 笼 单 的 山谷 ， 前 进 ， 勇 敢 地 前 进 !” 阴影 回应 道 ， 一 一 “如 时 
你 在 寻找 理想 国 1” 
一 一 埃 德 加 爱 伦 : 坡 ,《 理 想 国 》， 第 4 节 ，1849 
7.1 引言 


计算 机 架构 师 一 直 在 寻求 计算 机 设计 的 理想 境地 : 只 需 将 现 有 的 多 个 较 小 计算 机 简单 地 连 
接 在 一 起 ， 即 可 构成 功能 强大 的 计算 机 。 这 就 是 多 处 理 器 2 产生 的 根源 。 在 理想 情况 下 ， 用 户 可 
以 按照 其 支付 能 力 购买 足够 多 的 处 理 器 ， 从 而 获得 对 应 数量 的 性 能 。 因 而 ， 多 处 理 器 软件 必须 设 
计 为 能 在 不 同 数量 处 理 器 的 情况 下 工作 。 如 第 1 章 所 述 ， 无 论 是 数据 中 心 还 是 微 处 理 器 ， 功 耗 已 
经 成 为 一 个 首要 问题 。 通 过 将 大 型 低 效能 处 理 器 替换 为 许多 小 型 高 效能 处 理 器 ， 在 软件 可 以 有 
效 地 使 用 每 个 处 理 器 的 情况 下 ， 可 在 单位 瓦特 或 单位 焦耳 上 获得 更 高 的 性 能 。 这 样 ， 对 多 处 理 器 
而 言 ， 可 以 通过 可 伸缩 的 性 能 来 提高 功效 : 

由 于 多 处 理 器 软件 支持 可 变数 量 的 处 理 器 ， 一 些 设计 支持 在 受 损 硬 件 上 正常 工作 ; 也 就 是 
说 ， 如 果 在 包含 个 处 理 器 的 多 处 理 器 中 有 个 处 理 器 失效 ， 该 系统 将 继续 使 用 n - 1 个 处 理 器 
提供 服务 。 因 此 ， 多 处 理 器 也 提高 了 可 用 性 ( 见 第 6 章 )。 

高 性 能 意味 着 处 理 独 立 作业 的 高 吞吐 量 ， 这 被 称 作 作业 级 并 行 或 进程 级 并 行 9。 并 行 作业 是 
互相 独立 的 应 用 程序 ， 这 在 并 行 计算 机 中 非常 重要 并 且 普 遍 使 用 。 与 之 相对 的 方法 是 在 多 个 处 
理 器 上 运行 一 个 作业 。 我 们 使 用 术语 并 行 处 理 程序 9 来 表示 同时 运行 在 多 个 处 理 器 上 的 单一 


怠 ”多 处 理 器 (multiprocessor) ， 至 少 含有 两 个 处 理 器 的 计算 机 系统 。 与 之 对 应 的 概念 是 单 处 理 器 (uniprocessor) ， 
它 仅 含 . -个 处 理 器 。 

电 作业 级 并 行 (job - level parallelism) 或 进程 级 并 行 (process -~ level parallelism) : 通过 同时 运行 独立 程序 的 方法 来 
利用 多 处 理 器 。 

加 并行 处 理 程序 (parallel processing program) : 同时 运行 在 多 个 处 理 器 上 的 单一 程序 。 
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程序 。 

在 过 去 的 数 十 年 里 ， 很 多 科学 问题 都 需要 更 快 的 计算 机 ， 同 时 这 些 间 题 也 被 用 于 评价 新 型 
的 并 行 计算 机 。 本 章 将 介绍 其 中 的 几 个 问题 。 这 些 问 题 有 些 处 理 起 来 很 简单 ， 使 用 由 封装 在 不 同 
独立 服务 器 或 PC 上 的 多 个 微 处 理 器 组 成 的 集群 S 即 可 完成 计算 。 除 了 科学 问题 以 外 ， 集 群 还 可 
以 运行 对 等 请 求 应 用 程序 ,如 搜索 引擎 、Web 服务 器 、 电 子 邮 件 服务 器 和 数据 库 。 

如 第 1 章 所 述 ， 多 处 理 器 因 功 耗 问题 已 成 为 研究 焦点 ， 未 来 处 理 器 性 能 的 提高 显然 不 再 是 依 
赖 更 高 的 主 频 和 改进 CPI， 而 是 借助 于 在 单 芯片 内 集成 更 多 的 处 理 器 。 为 了 避免 名 称 上 的 元 长 ， 
称 之 为 多 核 微 处 理 器 而 不 是 多 处 理 器 微 处 理 器 (mnulticore microprocessor) 。 处 理 器 在 多 核 芯片 内 
一 般 称 为 核 〈core) 。 核 的 数量 预计 每 两 年 翻 一 番 。 所 以 ， 注 重 性 能 的 程序 员 必 须 成 为 并 行程 序 
员 ， 因 为 顺序 程序 等 同 于 慢 速 程序 。 

业界 面临 的 巨大 挑战 是 如 何 构建 易于 正确 编写 并 行 处 理 程序 的 软 硬 件 系统 ， 不 仅 程序 能 够 
有 效 执行 ， 而 且 性 能 和 功 耗 可 以 随 着 单 芯 片 内 核 的 数量 呈 几 何 级 数 缩放 。 

微 处 理 器 设计 的 这 种 突然 转变 导致 很 多 设计 人 员 措 手 不 及 ， 因 而 会 有 很 多 关于 术语 及 其 内 
涵 的 困惑 。 图 7-1 试图 澄清 串 行 (serial) 、 并 行 (parallel) 、 顺 序 (sequential) 和 并 发 《coneur- 
rent) 等 术语 之 间 的 差异 。 该 图 中 的 列 代表 固有 顺序 或 并 发 的 软件 ， 行 表示 串 行 或 并 行 的 硬件 。 
例如 ， 编 写 编译 器 的 程序 员 认 为 编译 器 是 顺序 程序 ， 因 为 编译 的 主要 过 程 包括 词法 分 析 、 句 法 分 
析 、 代 码 生 成 和 优化 等 是 顺序 完成 的 。 与 之 相 比 ， 编 写 操作 系统 的 程序 员 一 般 认 为 操作 系统 是 并 
发 程序 ， 因 为 操作 系统 需要 协 问 处 理 一 个 计算 机 中 多 个 独立 作业 产生 的 各 种 IO 事件 。 


顺序 ”- ”并 发 


运行 于 Intel Pentium 4 上 的 用 Mat- 运行 于 Intel Pentium 4 上 的 
lab 编写 的 矩阵 乘 













Windows Vista 操作 系统 


mn 运行 于 intel Xeon e5345 (Clover- 运行 于 Intel Xeon e3345 (Co- 
并 行 town) 上 的 用 Matlab 编写 的 矩阵 乘 vertown) 上 的 Windows Vista 操作 
系统 


图 7-1 硬 / 软 件 分 类 以 及 若干 并 发 应 用 程序 与 并 行 硬件 的 对 比 实例 

图 7-1 说 明了 以 下 两 点 : 第 一 ， 并 发 软件 可 以 运行 于 串 行 硬件 上 (如 操作 系统 可 以 运行 在 
Intel Pentium 4 单 处 理 嚣 上 ) ， 也 可 以 运行 于 并 行 硬件 上 (如 操作 系统 可 以 运行 在 Intel Xeon e5345 
上 ); 第 二 ， 反 过 来 顺序 软件 也 是 类 似 的 ， 如 Matlab 程序 员 认 为 矩阵 乘 是 顺序 执行 的 ， 但 是 它 可 
以 串 行 地 在 Intel Pentium 4 上 运行 ， 也 可 以 并 行 地 在 Intel Xeon e5345 上 运行 。 也 许 你 会 认为 并 行 
的 唯一 挑战 是 如 何 将 一 个 固有 顺序 执行 的 软件 在 并 行 硬件 上 获得 更 高 性 能 ， 但 实际 上 如 何 让 并 
发 程序 在 多 处 理 器 上 随处 理 器 数量 增加 而 提高 性 能 也 是 一 个 难点 。 为 了 加 以 区 别 ， 本 章 后 面 的 
部 分 使 用 并 行 处 理 程序 (parallel Processing program) 或 并 行 软件 (parallel software) 表示 运行 在 
并 行 硬件 上 的 顺序 软件 或 并 发 软件 。 

7.2 节 分 析 了 创建 高 效 的 并 行 处 理 程序 的 困难 所 在 。7.3 节 和 7.4 方 描述 了 基本 并 行 硬件 的 
两 种 类 型 ， 它 们 的 区 别 在 于 系统 中 所 有 处 理 器 是 否 采 用 单一 的 物理 地 址 。 这 两 种 类 型 的 常见 形 
式 分 别 是 共享 存储 多 处 理 器 (shared memory multiprocessor) 和 集群 (cluster) 。7. 5 节 描 述 了 术语 
多 线程 《multithreading) ， 它 经 常 和 多 处 理 ( multiprocessing) 产生 混淆 ， 部 分 是 因为 它们 都 依赖 
















名 集群 (cluster) : 通过 局 域 网 连接 的 一 组 计算 机 ， 其 作用 等 同 于 一 个 大 型 的 多 处 理 器 。 
已 ”多 核 微 处 理 器 《multicore microprocessor) : 在 单一 集成 电路 上 包含 多 个 处 理 器 ( “ 核 ") 的 微 处 理 器 。 
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于 程序 的 并 发 性 。7. 6 节 描 述 了 一 种 比 图 7-1 更 古老 的 分 类 方法 ， 以 及 支持 顺序 应 用 程序 在 并 行 
硬件 上 运行 的 两 种 指令 集 类 型 : SIMD 和 向 量 机 。7. 7 节 描 述 了 一 种 来 自 图 形 硬 件 处 理 领域 的 相 
对 较 新 的 计算 机 ， 称 为 CPU (graphics processing unit， 图 形 处 理 单 元 ) 。 附 录 A 给 出 了 GPU 的 具 
体 细节 。7. 9 节 首 先 描述 了 寻找 并 行 基 准 测试 程序 的 难点 ， 然 后 描述 了 一 种 新 的 简单 但 却 深 刻 的 
性 能 模型 ， 可 用 于 辅助 应 用 程序 及 体系 结构 的 设计 。 利 用 该 性 能 模型 ， 我 们 在 7. 11 节 评 估 了 4 
种 最 近 的 多 核 计 算 机 在 两 种 应 用 程序 内 核 上 的 性 能 。 本 章 最 后 解析 了 一 些 常见 雇 误 和 陷阱 ， 并 
进行 了 总 结 。 

在 进一步 讨论 并 行 方法 之 前 ， 我 们 需要 回顾 一 下 前 面 章节 的 下 述 内 容 ， 

。 第 2 章 2.11 节 : 并 行 与 指令 : 同步 

e 第 3 章 3.6 节 : 并 行 性 和 计算 机 算术 : 结合 律 

。 第 4 章 4.10 节 ;并行 和 高 级 指令 级 并 行 

。 第 5 章 5.8 节 : 并 行 与 存储 器 层次 结构 ，cache 一 致 性 

。 第 6 章 6.9 节 : 并 行 性 与 LO; 廉价 磁盘 宛 余 阵 列 . 
小 测验 


是非 判断 题 ， 为 了 从 多 处 理 器 获得 好 处 ， 应 用 程序 必须 是 并 发 的 。 


/< 创建 并 行 处 理 程序 的 难点 


并 行 的 难点 不 在 于 硬件 ， 且 前 只 有 极 少 最 重要 的 应 用 程序 经 过 重新 编写 能 在 多 处 理 器 上 获 
得 更 快 的 执行 时 间 。 事 实 上 ， 在 多 处 理 器 上 编写 程序 来 提高 执行 效率 是 困难 的 ， 而 且 随 着 处 理 器 
数量 的 增加 会 变 得 更 加 困难 。 

为 什么 会 这 样 呢 ? 为 什么 并 行 处 理 程序 相对 于 顺序 程序 更 加 难以 开发 呢 ? 

首要 原因 是 必须 使 用 并 行 处 理 程序 才能 在 多 处 理 器 上 获取 更 高 性 能 和 效率 ; 否则， 应 该 在 
单 处 理 器 上 使 用 顺序 程序 ， 因 为 编写 顺序 程序 相对 较 简单 。 事 实 上 ， 单 处 理 器 设计 技术 〈 如 超 
标量 和 乱 序 执行 ) 充分 利用 了 指令 级 并 行 〈 见 第 4 章 ) ， 而 且 通 常 不 需要 程序 员 的 介 人 。 这 些 技 
术 不 需要 改写 程序 ， 因 此 程序 员 不 做 任何 事情 就 可 以 在 新 的 计算 机 上 获得 更 高 性 能 。 

为 什么 编写 更 快 的 并 行 处 理 程序 非常 困难 (尤其 是 让 执行 速度 可 随处 理 器 数量 的 增加 而 增 
加 )? 在 第 1 章 中 我 们 打 了 个 比方 ， 让 8 个 记者 同时 编写 同一 故事 ， 希 望 获得 8 倍 的 速度 完成 该 
项 工作 。 为 了 实现 目标 ， 任 务必 须 被 分 解 为 等 量 的 8 份 ， 否 则 会 有 一 些 记者 处 于 空闲 状态 等 待 其 
他 工作 量 较 大 的 人 员 完 成 任务 。 另 外 一 个 影响 性 能 的 障碍 是 记者 们 必须 花费 大 量 时 间 进 行 互相 
交流 ， 而 不 是 专心 编写 自己 所 负责 的 那 部 分 故事 。 无 论 是 这 个 类 比 还 是 并 行 编程 ， 都 要 面临 如 下 
党 成 : 调度、 负载 均衡 、 同 步 时 间 和 通信 开销 。 而 且 ， 相 对 于 使 用 更 多 记者 完成 一 篇 新 闻 报道 ， 
使 用 更 多 处 理 器 完成 并 行 编程 要 复杂 得 多 。 

我 们 在 第 1 章 中 还 讨论 了 另外 一 个 障碍 ， 即 Amdahl 定律 。 它 提示 我 们 为 了 充分 利用 多 核 ， 
程序 中 任何 一 个 很 小 的 部 分 都 需要 并 行 化 。 

加 速 比 的 挑战 

如 虹 硕 望 在 100 个 处 理 器 上 获得 加 速 比 90， 请 问 原始 计算 中 最 多 有 多 少 可 以 是 顺序 执行 
的 呢 ? 
答案 

根据 第 1 章 描述 的 Amdahl 定律 : 

改进 后 的 执行 时 间 = 宇 玉 这 影 响 的 执行 时 间 + 未 受 改 进 影响 的 时 间 


使 用 加 速 比 的 形式 重新 表示 Amdahi 定律 : 
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- 改 时 前 的 执行 时 间 _ 
(改进 前 的 执行 时 间 ~ 受 影响 的 执行 时 间 ) + 滨 影 响 的 扣 行 时 则 
该 公式 通常 被 改写 为 假定 改进 前 的 执行 时 间 为 1 个 时 间 单 元 的 形式 ， 受 改进 影响 的 执行 时 间 
可 以 视 作 与 原始 执行 时 间 的 比值 


加 速 比 


1 


加 速 比 = 一 一 一 一 一 
(1 - 受 影 响 的 执行 时 间 比 例 ) + 区 影响 的 执行 时 间 比 仙 
将 加 速 比 90 的 目标 替换 到 上 述 公 式 中 : 
1 
90 = 


然后 简化 该 公式 并 对 受 影响 的 执行 时 间 比 例 进行 求解 : 
90 x (1 -0.99x 受 影响 的 执行 时 间 比 例 ) = 1 
90 -90 x0.99 x 受 影响 的 执行 时 间 比 例 = 1 
90 -1=90x0.99x 受 影响 的 执行 时 间 比 例 
受 影 响 的 执行 时 间 比 例 = 89/89. 1 = 0. 999 
因此 ,为 了 在 100 个 处 理 器 上 获得 加 速 比 90， 顺 序 执行 部 分 最 多 占 0.1% 。 
然而 ， 还 是 有 大 量具 有 固有 并 发 特征 的 应 用 程序 。 
E20 加速 比 的 挑战 ， 更 大 规模 的 问题 
执行 两 个 加 法 : 一 个 加 法 是 10 个 标量 的 求 和 ， 一 个 加 法 是 一 对 10 x10 二 维和 候 阵 的 求 和 。 使 
用 10 个 和 100 个 处 理 器 达到 的 加 速 比分 别 是 多 少 呢 ? 如 果 人 矩阵 维 数 是 100 x100 呢 ? 
答案 | 
我 们 假定 性 能 是 加 法 时 间 守 的 函数 ， 并 有 c 假 定 有 10 次 加 法 不 能 从 并 行 处 理 器 中 获 益 ，100 次 
加 法 可 以 获 益 。 如 果 在 单 处 理 器 上 的 执行 时 间 为 110:， 那 么 在 10 个 处 理 器 上 的 执行 时 间 是 
改进 后 的 执行 时 间 = + 10: = 20 


所 以 使 用 10 个 处 理 器 的 加 速 比 是 110t/20t =5.5。 使 用 100 个 处 理 器 的 执行 时 间 是 
改进 后 的 执行 时 间 = Oct + 10¢ = 117 
所 以 使 用 100 个 处 理 器 的 加 速 比 是 110x1lr = 10。 
因此 ， 对 于 该 问题 规模 ， 我 们 使 用 10 个 处 理 器 达到 了 潜在 加 速 比 的 55% ， 但 是 使 用 100 个 
处 理 属 仅 达到 了 潜在 加 速 比 的 10%。 如 果 从 阵 增加 到 100 x 100， 那 么 顺序 程序 的 执行 时 间 为 
10z + 10 000: =10010:。10 个 处 理 器 的 执行 时 间 是 
DVO: + 10 = 1 010 


改进 后 的 执行 时 间 = 
所 以 10 个 处 理 器 的 加 速 比 是 10010s/1010t =9.9。100 个 处 理 器 的 执行 时 间 是 
改进 后 的 执行 时 间 = + 10+ = 110: 


所 以 100 个 处 理 器 的 加 速 比 是 10 010x110: =91。 因 此 ， 对 于 较 大 的 问题 规模 ， 我 们 使 用 10 
个 处 理 器 获得 了 大 约 99% 的 潜在 加 速 比 ， 使 用 100 个 处 理 召 获得 了 超过 90% 的 潜在 加 速 比 。 
这 些 例子 说 明 为 了 在 多 处 理 凑 上 获得 更 高 加 速 电 ， 保 持 问 题 规模 不 变相 对 后 增加 问题 规模 
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会 更 加 困难 。 为 此 我 们 引入 两 个 术语 来 描述 按 比例 缩放 的 方式 。 强 比例 缩放 9 指 保持 问题 规模 固 
定 所 测 得 的 加 速 比 。 弱 比例 缩放 2 指 问题 规模 随处 理 器 数量 按 比例 增加 所 获得 的 加 速 比 。 假 定 问 
题 规模 用 是 主 存 中 的 工作 集 ， 处 理 器 数量 为 P， 那么 每 个 处 理 器 所 占用 的 内 存 对 于 强 比 例 缩放 
大 约 是 M/AP， 对 于 弱 比 例 缩放 大 约 是 M。 

取决 于 不 同 的 应 用 程序 ， 可 以 使 用 不 则 的 比例 缩放 方法 。 例 如 ， 第 6 章 的 TPC-C 借贷 数据 
库 基准 测试 程序 需要 按 比例 增加 客户 数量 ， 从 而 提高 每 分 钟 内 的 事务 处 理 次 数 。 这 是 因为 不 能 
由 于 银行 安装 了 更 快 的 计算 机 而 假定 客户 每 天 使 用 100 次 ATM， 这 是 没有 实际 意义 的 。 因 此 ， 
如 果 希 望 证 明 系统 可 以 将 每 分 钟 内 处 理 的 事务 处 理 次 数 提高 100 倍 ， 应 当 在 顾客 数量 提高 100 倍 
的 情况 下 进行 实验 。 

最 后 一 个 例子 说 明了 负载 均衡 的 重要 性 。 
本 了 统 加 速 比 的 挑战 ， 负 载 均衡 

在 上 个 例子 中 ， 我们 使 用 100 个 处 理 器 在 较 大 问题 规模 中 实现 了 加 速 比 91， 其 中 假定 了 负 
载 是 完全 均衡 的 。 也 就 是 说 ，100 个 处 理 器 中 每 一 个 都 完成 1% 的 工作 。 事 实 上， 如果 一 个 处 理 
恬 的 负载 高 于 其 他 处 理 器 ， 则 加 速 比 会 受到 影响 。 请 计算 其 中 一 个 处 理 器 完成 2 多 和 5 听 工 作 量 
时 的 加 速 比 。 
答案 

如 果 一 个 处 理 器 负责 29% 的 并 行 负载 ， 那 么 它 需 要 完成 2% 乘 以 10000 即 200 次 加 法 ， 其 他 的 99 个 
处 理 器 分 担 剩 余 的 9800 次 加 法 。 由 于 它们 是 间 时 运算 的 ， 我们 可 以 取 两 者 工作 时 间 的 最 大 值 。 


改进 后 的 执行 时 间 = Max (oo ) + 10 = 210t 


加 速 比 降低 至 10 0101/210i: =48。 如 果 一 个 处 理 器 完成 5% 的 负载 ， 它 必须 执行 500 次 加 法 : 
改进 后 的 执行 进 间 = Max (<, 
加 速 比 进一步 降低 至 10 010w510: =20。 这 个 例子 说 明了 负载 均衡 的 重要 性 ， 仅 在 一 个 处 理 
器 的 负载 是 其 他 处 理 器 的 两 倍 时 ， 加 速 比 几乎 降低 了 一 半 ; 一 个 处 理 器 的 负 载 是 其 他 处 理 器 的 
五 倍 时 ， 加 速 比 几乎 降低 到 了 原来 的 五 分 之 一 。 
小 测验 | 
是 非 羯 断 : 强 比例 缩放 不 遵守 Amdahl 定律 。 


7.3 共享 存储 多 处 理 器 


在 给 出 了 重 写 原 有 程序 运行 于 并 行 硬件 上 的 难点 之 后 ， 一 个 自然 的 问题 是 计算 机 设计 
者 如 何 简化 该 工作 。 一 种 方法 是 为 所 有 处 理 器 提供 一 个 共享 的 单一 物理 地 址 空间 ， 以 便 程 
序 不 必 考 虑 它们 在 哪里 运行 ， 只 要 知道 它们 能 够 并 行 执行 就 可 以 了 。 在 这 种 方法 中 ， 一 个 
程序 的 所 有 变量 对 其 他 任何 处 理 器 在 任何 时 间 都 是 可 见 的 。 另 一 种 方法 是 每 个 处 理 器 采用 
独立 的 地 址 空间 ， 共 享 必须 是 显 式 的 ; 我 们 将 在 下 节 描述 这 种 情况 。 当 物理 地 址 空间 公用 
时 (这 一 般 发 生 在 多 核 芯片 中 ) ， 通 常 由 硬件 提供 cache 一 致 性 ， 以 便 保证 共享 存储 器 的 
致 性 (参见 第 5 章 5.8 节 )。 

为 程序 员 提供 跨越 所 有 处 理 器 的 单一 物理 地 址 空间 的 多 处 理 器 称 为 共享 存储 多 处 理 器 e 


) + 10: = 510; 


昌 ” 强 比例 缩放 (strong scaling) : 在 多 处 理 器 上 不 需 增加 问题 规模 即 可 获得 的 加 速 比 。 
名 ” 绊 比 例 缩放 〈weak scaling) : 在 多 处 理 器 上 增加 处 理 器 数量 的 同时 按 比例 增加 问题 规模 所 能 获得 的 加 速 比 ， 


已 六 全 多 处 理 名 ( shared memory multiprocessor, SMP) : 具有 单一 地 址 空间 的 并 行 处 理 器 ， 存 取 时 采用 隐 式 通 
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(SMP) ， 尽 管 更 加 准确 的 术语 应 该 是 共享 地 址 多 处 理 器 (shared-address mujtiprocessor) 。 需 要 注 
意 ， 此 类 系统 虽然 全 部 共享 同一 物理 地 址 空间 ,但 是 依然 可 以 在 它们 自己 的 点 地 址 空间 中 运行 
独立 的 作业 。 处 理 器 通过 存储 器 中 的 共享 变量 互相 通信 ， 所 有 处 理 器 都 能 访问 任何 存储 器 位 置 。 
图 7-2 给 出 了 SMP 的 典型 组 成 。 





7-2 一 个 共享 存储 多 处 理 器 的 典型 组 成 


单一 地 址 空间 的 多 处 理 器 有 两 种 类 型 。 第 一 种 类 型 的 访 存 时 间 大 致 相同 ， 无 论 是 哪个 处 理 
名 提出 访 存 请 求 ， 也 无 论 要 访 存 哪 个 字 。 这 类 机 器 称 为 统一 存储 访问 (UMAje 多 处 理 器 。 在 另 
一 种 类 型 中 ， 某 些 存储 访问 更 快 ， 这 取决 于 哪个 处 理 器 请 求 访问 哪个 字 。 这 类 机 器 称 为 非 统 一 存 
储 访问 (NUMA) 多 处 理 器 。NUMA 多 处 理 器 的 编程 难度 要 高 于 UMA 多 处 理 器 ， 但 NUMA 机 器 
可 以 扩展 到 更 大 规模 ， 并 且 NUMA 访问 附近 的 存储 器 时 具有 较 低 的 延迟 。 

由 于 处 理 器 并 行 执行 一 般 都 需要 共享 数据 ， 所 以 它们 在 操作 共享 数据 时 需要 进行 协调 ， 
人 否则， 一 个 处 理 器 可 能 会 在 其 他 处 理 器 尚未 完成 对 共享 数据 的 操作 时 就 开始 使 用 该 数据 了 。 
这 种 协调 称 为 同步 *。 在 使 用 单一 地 址 空间 支持 的 共享 和 时， 必须 提供 一 套 独 立 的 同步 机 制 。-- 
种 方法 是 为 每 个 共享 变量 使 用 锁 ”。 在 一 个 时 刻 只 能 有 一 个 处 理 器 获得 锁 ， 其 他 需要 操作 该 共 
学 数据 的 处 理 器 必须 等 待 ， 直 到 该 处 理 器 解锁 该 变量 为 止 。 第 2 章 2. 11 节 描 述 了 MIPS 中 关 
于 锁 操 作 的 指令 。 
ES ”一 个 共享 地 址 空间 的 简单 并 行 处 理 程序 

假设 我 们 需要 在 一 个 处 理 器 数量 为 100 的 共享 存储 多 处 理 器 计算 机 上 对 100 000 个 数 求 和 ， 
该 计算 机 具有 统一 的 存储 颖 访问 时 间 。 
答案 

需要 完成 的 第 一 步 依然 是 将 这 组 数 分 成 等 量 的 子 集 。 由 于 该 机 器 具有 单一 的 存储 器 空间 ， 
因此 我 们 不 把 这 些 子 集 分 配 到 不 同 的 存储 融 空 间 上 ; 我 们 只 给 每 个 处 理 器 分 配 不 同 的 起 始 地 直 。 
用 Pn 表示 不 同 处 理 希 的 编号 ， 取 值 范围 在 0 到 99 之 间 。 所 有 处 理 妖 启动 程序 运行 一 个 循环 来 完 
成 它们 子 集中 数 的 求 和 : . 

suml Pn) =0; 


for (i = 1000 > Pn; i < 1000 * (Pn+1i); i=i+1)} 
sum[ Pn] =sum[ Pn] +A[ i]; /x* 对 指定 的 区 域 求 和 * / 


统一 存储 访问 《uniform memory access ，UMA) : 无 论 访 存 的 是 哪个 处 理 器 ， 也 无 论 访 存 的 是 娜 个 字 ， 访 存 时 间 
都 大 致 相同 的 多 处 理 髓 。 

非 统一 存储 访问 nonuniform memory access，NUMA) ， 使 用 单一 地 址 空 间 多 处 理 器 的 一 种 类 型 ， 某 些 存储 访 存 速度 高 
于 其 他 访 存 ， 访 存 速 度 与 访问 哪个 处 理 器 及 访问 哪个 字 相关 。 

同步 〈synchronization ) ; 对 可 能 运行 于 不 同 处 理 器 上 的 两 个 或 者 更 多 进程 的 行为 进行 滩 调 的 过 各 

锁 (lock) : 一 个 时 刻 仅 允 许 一 个 处 理 器 访问 数据 的 同步 装置 。 


BP 0 0 
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下 一 步 是 将 这 些 部 分 和 加 起 来 ， 称 为 约 简 ”。 我 们 采用 分 而 治之 的 方法 。 首 先 用 一 半 处 理 器 
对 部 分 和 求 和 ， 然 后 再 用 四 分 之 一 处 理 器 对 新 的 部 分 和 求 各 ， 以 此 类 推 直 到 获得 最 终 的 和 。 图 7- 
3 对 约 简 的 过 程 进行 了 说 明 。 四 

在 该 例子 中 ,“ 消 费 者 ”处 理 器 在 读 取 由 “生产 
者 ” 处 理 器 写 人 结果 的 存储 器 位 置 之 前 必须 同步 ; Chalf=1) 名 | 四 
否则 ， 消 费 者 可 能 读 取 到 数据 的 旧 值 。 我 们 希望 每 


个 处 理 器 拥有 自己 的 循环 计数 器 变 量 :， 因 此 我 们 将 。 六- 国 可 可 
im 


其 声明 为 “私有 ”变量 。 下 面 是 相应 的 代码 (half 








也 是 私有 变量 ): 1. We Ne 
half =100; /* 在 该 多 处 理 器 中 有 100 个 处 理 器 * /half-4) [oj s le 
Te 图 7-3” 自 底 向 上 的 最 后 4 级 求 和 过 程 


synch () ; /* 等 得 部 分 和 的 计算 完成 * / | 
if (half% 2! =0 gg Pn = =0) 对 于 所 有 编号 i 小 于 half 的 处 理 器 ， 将 自己 产 


sumL0] = sum[0] +sum[l half-11; 生 的 部 分 和 与 编号 i + half 的 处 理 器 产生 的 部 分 和 
/* 当 half 为 奇数 时 需要 进行 此 步 求 和 * / 相 加 。 
half =half/2; /* 完成 求 和 工作 处 理 器 的 分 界 
线 * / . 
if (Fn <half) 
sum[ Pn] = sum[ Pn| + sum[ Pn + half]:; 
until (half = =1}):; 





小 测验 ， 
是 非 判 断 ， 共享 存储 多 处 理 器 不 能 利用 作业 级 并 行 。 
精 解 ， 除了 共享 物理 地 址 空间 之 外 ， 还 有 一 种 方法 是 使 用 独立 的 物理 地 址 空间 ， 但 共享 同一 虚 地 址 空间 ， 
由 操作 系统 负责 处 理 通信 。 这 种 方法 已 经 有 过 尝试 ， 但 为 了 向 程序 员 提 供 一 个 实用 的 共享 存储 器 抽象 ， 它 的 开销 
过 大 。 


7.4 集群 和 其 他 消息 传递 多 处 理 器 


相对 于 共享 地 址 空间 ， 另 一 种 方法 是 每 个 处 理 器 具有 自己 私有 的 物理 地 址 空间 。 图 7-4 给 出 了 
具有 多 个 私有 地 址 空间 的 典型 组 成 。 这 种 多 处 理 器 必须 通过 显 式 的 这 消息 传递 进行 通信 ， 传 统 上 
也 把 这 类 计算 机 称 为 消息 传递 计算 机 。 只 要 系统 提供 发 
送 消息 例 程 85 和 接收 消息 例 程 8 ， 协 调 工作 就 可 以 通过 消 
息 传递 来 完成 ， 因 为 发 送 处 理 器 知道 何 时 发 送 消息 ， 接 
收 处 理 器 也 知道 何 时 消息 到 达 。 如 果 发 送 者 需要 确认 
消息 已 经 送 达 ， 那 么 接收 处 理 器 可 以 向 发 送 者 返回 _- 
个 确认 消息 。 

无 论 采 用 共享 地 址 还 是 消息 传递 ， 一 些 并 发 的 应 
用 程序 在 并 行 硬件 上 都 可 以 运行 得 很 好 。 特 别 是 对 
些 作业 级 并 行 和 几乎 不 需 通 信 的 应 用 程序 (如 Web 搜 图 ”4 ”具有 多 个 私有 地 址 空间 的 多 处 理 器 的 


组 成 ， 传 统 上 称 为 消息 传 
索 、 邮 件 服务 器 和 文件 服务 器 ) ， 即 使 不 需要 共享 地 址 与 图 7-2 中 的 SMP 不 同 ， 加 和 风 线 不 全 说 


也 可 以 运行 得 很 好 。 和 存储 器 之 间 ， 而 是 在 处 理 器 -存储 器 的 节点 之 间 。 








约 简 (reduction). 处 理 一 个 数据 结构 并 返回 单一 值 的 函数 。 

消 县 传递 (message passing) : 通过 显 式 发 送 和 接收 信息 的 方式 在 多 个 处 理 器 之 间 的 通信 。 

发 送 消息 例 程 (send message routine) ， 具 有 私有 存储 器 的 机 器 中 一 个 处 理 器 将 消息 发 送 给 另 一 个 处 理 器 的 例 程 。 
接收 消息 例 程 (receive message routine) ， 具有 私有 存储 器 的 机 器 中 一 个 处 理 器 楼 收 来 自 其 他 处 理 器 消息 的 例 程 。 


和 由 OO 
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曾经 有 过 几 次 基于 高 性 能 消息 传递 网 络 构建 高 性 能 计算 机 的 尝试 。 相 对 于 使 用 局 域 网 构建 
的 集群 ， 它 们 确实 可 以 提供 更 高 的 性 能 ， 但 成 本 过 高 。 很 少 有 应 用 程序 能 够 为 更 高 的 性 能 支付 更 
多 的 成 本 。 因 此 ， 和 集群 ?已 经 成 为 目前 使 用 最 为 广泛 的 消息 传递 并 行 计算 机 。 集 群 通常 是 采用 标 
准 网 络 交 换 机 和 和 线 缆 互 连 的 一 组 商用 计算 机 。 每 台 计 算 机 运行 操作 系统 的 一 个 不 同 备份 。 目 前 ， 
几乎 所 有 Intemet 服务 都 依赖 于 由 商用 服务 器 和 交换 机 构成 的 集群 。 
集群 的 一 个 缺点 是 管理 由 = 台 机 器 构成 的 集群 的 成 本 几乎 与 管理 = 台独 立 机 器 的 成 本 相同 ， 
而 管理 一 个 含有 = 个 处 理 器 的 共享 存储 多 处 理 器 的 成 本 几乎 与 管理 -一 台 机 器 的 相同 。 
这 一 缺点 是 促使 虚拟 机 〈 见 第 5 章 ) 日 益 普 及 的 原因 之 一 ， 因 为 虚拟 机 相对 集群 更 加 容 
易 管 理 。 例 如 ， 虚 拟 机 支持 程序 的 自动 关闭 或 启动 ， 这 简化 了 软件 的 升级 。 虚 拟 机 甚至 不 需 
要 停止 程序 就 可 将 其 从 集群 中 的 一 台 计 算 机 迁移 到 另 一 台 上 ， 这 使 得 程序 可 以 从 失效 的 硬件 
土 迁移 。 
集群 的 另 一 个 缺点 是 集群 中 的 处 理 器 通常 借助 每 台 计 算 机 的 WO 进行 互 连 ， 而 多 处 理 器 中 的 
核 通常 借助 计算 机 的 存储 器 进行 互 连 。 存 储 器 互 连 具 有 更 高 的 带宽 和 更 低 的 延迟 ， 因 而 能 够 提 
供 更 高 的 通信 和 能力 。 
集群 的 最 后 一 个 缺点 是 存储 器 划分 的 开销 : z 台 机 器 构成 的 集群 具有 个 独立 的 存储 器 入 
份 操作 系统 备份 ， 但 是 共享 存储 多 处 理 器 允许 一 个 程序 使 用 计算 机 中 几乎 全 部 存储 器 ， 并 且 只 
需要 操作 系统 的 一 份 备份 。 
存储 器 效率 
假定 茶 个 共享 存储 多 处 理 器 有 20 GB 主 存 ， 而 另 一 个 由 5 人 台 计 算 机 构成 的 集群 中 每 台 计 算 机 
有 4 GB 主 存 。 如 果 一 个 操作 系统 点 1 GB 主 存 ， 请 问 共享 存储 多 处 理 颖 用 户 的 可 用 存储 容量 超过 
集群 用 户 多 少 呢 ? 
共享 存储 多 处 理 器 相对 集群 的 程序 可 用 存储 器 大 小 比例 是 
20-1 _19 
5x(4-1) 15 
因此 共享 存储 多 处 理 器 可 提供 超过 集群 325% 的 更 多 主 存 空间 。 
下 面 我 们 重新 完成 前 面 的 求 和 示例 ， 从 中 可 以 看 出 使 用 多 个 私有 存储 器 和 显 式 通信 所 带 来 的 影响 ， 
一 个 采用 消息 传递 的 简单 并 行 处 理 程 序 
假设 我 们 需要 在 一 个 消息 传递 多 处 理 器 上 完成 对 100 000 个 数 的 求 和 ， 处 理 器 数量 为 100， 
每 个 处 理 器 都 有 自己 的 私有 存储 器 。 
由 于 该 计算 机 其 有 多 个 地 址 空间 ， 因 而 第 一 步 是 将 100 个 子 集 分 布 到 100 个 处 理 器 的 局 部 存 
储 器 上 。 拥 有 100 000 个 数 的 处 理 器 负责 把 子 集 发 送 给 100 个 处 理 器 - 存储 器 节点 。 
下 一 步 是 获得 每 个 子 集 的 和 。 这 一 步 只 需 在 每 个 处 理 器 上 执行 下 面 的 一 个 循环 即 可 ， 从 局 
部 存储 器 上 读 一 个 字 ， 并 将 其 加 到 一 个 局 部 变量 上 
Sum = 0; 
for (i=0; i<1000; i=i+1) /* 在 每 个 数组 上 循环 * / 
sum = sum + AN| i ]; /* 对 局 部 数组 求 和 * / 
最 后 一 步 是 对 100 个 部 分 和 求 和 。 难 点 在 于 每 个 部 分 和 都 在 不 同 的 处 理 器 上 。 因 此 ， 我 们 尺 
须 食用 互连网 络 发 送 部 分 和 以 便 完 成 最 终 计算 。 如 果 将 所 有 部 分 和 都 发 送 到 同一 处 理 吕 上， 这 
会 导致 部 分 和 的 相 加 上 顺序 完成 ， 所 以 我 们 仍旧 采用 分 而 治之 的 方法 。 


= 1.25 


护 集群 (cluster) : 一 组 计算 机 通过 VO 接口 与 标准 网 络 交换 机 连接 而 形成 的 消息 传递 多 处 理 机 。 
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首先 ， 一 半 处 理 喘 将 自己 的 部 分 和 发 送 给 另外 一 半 处 理 轿 ， 并 由 另外 一 半 处 理 器 完成 两 个 
部 分 和 的 相 加 。 然 后 四 分 之 一 的 处 理 器 (一 半 的 一 半 ) 发 送 新 的 部 分 和 到 另外 四 分 之 一 的 处 理 
器 (另外 一 半 的 一 半 )， 以 完成 下 一 轮 的 求 和 。 对 分 、 发 送 和 接收 将 一 直 持 续 直 到 获得 最 后 的 结 
果 。 令 Pn 表示 处 理 器 的 编号 ，send (x, y) 是 将 值 y 通 过 互连网 络 发 送 给 处 理 器 编号 为 x 的 例 程 ， 
receive() 是 从 互连网 络 接收 数据 的 函数 。 下 面 是 相应 的 代码 : 
limit =100; half =100; /* 100 个 处 理 器 * / 
fe (half +1) /2; /* 发 送 和 接收 的 分 界线 * / 
if (Pn> =half && Pn <1imit) send (Pn-half, sum); 
if (Pn < (limit/2)) sum= sum+ receive ()，; 
limit =half; /* 发 送 者 的 上 界 * / 
until (half = =1) /* exit with final sum* / 
这 段 代 码 将 所 有 处 理 器 分 成 发 送 者 或 接收 者 ， 并 且 每 个 接收 处 理 器 只 收 到 一 个 消息 ， 我 们 
可 以 假定 接收 处 理 器 在 收 到 消息 之 前 一 直上 阻塞 。 因 此 ， 发送 和 接收 除了 用 于 通信 之 外 ， 还 可 以 用 
作 同 步 原 语 ， 因 为 处 理 器 需要 等 待 传输 的 数据 。 
如 果 节 右 的 数量 为 奇数 ， 那么 中 间 的 节点 不 参加 发 送 和 和 接收。 界限 的 设 定 将 使 其 成 为 下 软 
计算 的 最 高 节点 。 
精 解 : 这 个 例子 假定 消息 传递 速度 和 加 法 一 样 快 。 实 际 上 ， 消 息 发 送 和 接收 是 非常 慢 的 。 让 少数 节点 
从 其 他 处 理 器 接收 多 个 部 分 和 是 另 一 个 能 够 更 好 地 平衡 计算 与 通信 的 优化 方案 。 
硬件 “软件 接口 
对 硬件 设计 者 来 说 ， 基 于 消息 传递 的 计算 机 比 需 要 维持 缓存 一 致 性 的 共享 存储 计算 机 更 加 
容易 设计 〈 见 第 5 章 5.8 节 )。 对 程序 员 来 说 ， 消 息 传 递 的 优点 是 显 式 通信 ， 这 意味 着 与 共享 存 
储 的 隐 式 通信 相 比 性 能 提升 较 少 ; 缺点 是 难以 将 一 个 顺序 程序 移植 到 消息 传递 计算 机 中 ， 因 为 
每 次 通信 必须 提前 标识 出 来 ， 否 则 程序 将 无 法 工作 。 缓 存 一 致 的 共享 存储 允许 硬件 判断 哪些 数 
据 需要 通信 ， 这 使 得 移植 相对 简单 。 现 在 对 于 如 何 最 快 地 获得 高 性 能 有 不 同 的 观点 ， 隐 起 通信 岂 
有 大 量 的 支持 者 和 反对 者 。 
仿 管 集群 的 内 存 互 相 独立 是 一 个 缺点 ,但 从 另 一 方面 讲 ， 内 存 独立 提高 了 系统 的 可 用 性 。 由 
于 集群 是 由 互相 独立 的 计算 机 通过 局 域 网 互 连 构成 的 ， 因 此 它 相 对 SMP 来 说 ,不 需要 关闭 集群 
系统 即 可 替换 其 中 的 一 台 机 器 。 从 根本 上 说 ， 共 享 地 址 结构 意味 着 在 操作 系统 不 能 提供 特别 辅 
助 时 ， 很 难 隔离 一 个 处 理 器 并 将 其 进行 替换 。 由 于 集群 软件 是 运行 在 每 台 计算 机 局 部 操作 系统 
之 上 的 一 层 ， 因 而 断 开 并 替换 一 台 失 效 的 机 器 要 简单 得 多 。 
如 果 集 群 是 由 整个 计算 机 和 规模 可 变 的 独立 网 络 构成 的 ， 隔 离 使 得 扩展 系统 更 加 容易 ， 不 
需要 关闭 运行 在 集群 之 上 的 应 用 程序 即 可 进行 扩展 。 
低 成 本 、 高 可 用 性 、 高 功效 以 及 快速 、 增 量 式 的 扩展 性 使 得 集群 对 互联 网 服务 提供 商 具 有 很 
大 吸引 力 。 数 百 万 用 户 每 天 使 用 的 搜索 引 警 即 依赖 这 项 技术 。eBay、Coogle、Microsoft、Yahoo 和 
其 他 公司 都 拥有 许多 由 集群 构成 的 数据 中 心 ， 每 个 集群 包含 数 以 万 计 的 处 理 器 。 显 然 ， 多 处 理 器 
在 Internet 服务 商 中 的 应 用 已 经 获得 了 巨大 的 成 功 。 
精 解 : 大 规模 计算 的 另 一 种 形式 为 网 格 计算 ， 它 的 计算 机 分 布 在 更 广泛 的 区 域 ， 运行 在 多 台 计 算 机 之 
间 的 程序 通过 广域网 通信 。 网 格 计算 最 流行 的 独特 形式 是 SETIG@ home 项 目 率 先 提 出 的 。 研 究 人 员 发 现 ， 在 
任何 时 候 都 有 数 以 百 万 的 PC 处 于 空闲 状态 没有 工作 可 做 ， 如 果 有 人 能 在 这 些 计 算 机 上 开发 相应 软件 ， 并 
将 整个 问题 独立 的 一 部 分 交 由 每 台 计算 机 来 完成 ， 那么 这 些 计算 机 的 计算 能 力 就 得 到 了 充分 利用 。 第 一 个 
这 样 的 应 用 是 SETI (Search for ExtraTerrestrial Initelligence) 。 超 过 200 多 个 国家 的 500 多 万 计算 机 用 户 参 与 
了 SETI@ home， 并 共同 贡献 了 超过 190 亿 小 时 计算 处 理 时 间 。 截 至 2006 年 年 底 ，SETIG@ home 网 格 达 到 了 
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257 TeraFLOPS 。 
1]) 是 非 判 断 : 和 SMP 类 似 ， 消 息 传递 计算 机 依赖 锁 机 制 实现 同步 。 
2) 是 非 判 断 : 与 SMP 不 同 的 是 ， 消 息 传递 计算 机 需要 并 行 处 理 程序 和 操作 系统 的 多 份 备份 。 


7.5 硬件 多 线程 

硬件 多 线程 ”支持 多 个 线程 以 重 肥 方式 共享 处 理 器 的 功能 单元 。 为 了 支持 共享 ， 处 理 器 必须 
为 每 个 线程 复制 独立 的 状态 。 例 如 ， 每 个 线程 必须 拥有 寄存 器 文件 和 PC 的 独立 备份 。 存 储 器 自 
号 可 以 通过 虚拟 存储 器 机 制 实现 共享 ， 多 道 程序 设计 中 已 经 支持 这 种 方法 。 此 外 ， 硬 件 必 须 具 有 
以 相对 较 快 的 速度 切换 线程 的 能 力 。 特 别 需 要 指出 的 是 ， 线 程 切换 相对 进程 切换 应 该 更 加 有 效 ， 
线程 切换 可 以 是 实时 的 ， 而 进程 切换 一 般 需 要 数 百 个 到 数 千 个 处 理 器 周期 。 

硬件 多 线程 主要 有 两 种 实现 方法 。 细 粒度 多 线程 在 每 条 指令 执行 后 都 进行 线程 切换 ， 结 果 
就 是 在 多 个 线程 之 间 交 叉 执 行 。 这 种 交叉 通常 以 循环 方式 进行 ， 并 在 循环 时 跳 过 处 于 阻塞 状态 
的 线程 。 为 了 实现 细 粒 度 多 线程 ， 处 理 器 必须 能 够 在 每 个 时 钟 周期 进行 线程 切换 。 细 粒度 多 线程 
的 一 个 主要 优点 是 可 同时 隐藏 由 短 阻 塞 和 长 阻塞 引起 的 吞吐 量 损失 ， 因 为 当 一 个 线程 阻塞 时 可 
以 执行 其 他 线程 的 指令 。 细 粒度 多 线程 的 主要 缺点 是 降低 了 单个 线程 的 执行 速度 ， 因 为 就 绪 状 
态 的 线程 会 因为 其 他 线程 而 延迟 执行 。 

粗 粒 度 多 线程 是 细 粒 度 多 线程 的 一 种 替代 方案 。 粗 粒度 多 线程 仅 在 高 开销 阻塞 时 才 进 行 线 
程 切换 ， 如 二 级 缓存 缺失 。 这 种 改变 降低 了 线程 切换 的 开销 ， 并 且 几 乎 不 会 降低 单个 线程 的 执行 
速度 ， 因 为 仅 在 当前 线程 遇 到 高 开销 阻塞 时 才 会 发 射 其 他 线程 的 指令 。 然 而 ， 粗 粒度 多 线程 有 - - 
个 严重 的 缺点 : 它 在 隐藏 吞吐 量 损失 的 能 力 方面 受 限 ， 特 别 是 短 阻 塞 。 这 种 限制 源 自 粗 粒度 多 线 
程 中 的 流水 线 启动 开销 。 因 为 粗 粒度 多 线程 处 理 器 从 单一 线程 发 射 指 令 ， 在 阻塞 发 生 时 ， 必 须 清 
空 或 冻 生 流水线。 阻塞 之 后 开始 执行 的 新 线程 必须 在 指令 能 够 完成 之 前 填充 流水 线 。 由 于 启动 
开销 ， 粗 粒度 多 线程 更 加 适合 用 来 降低 高 开销 阻塞 带 来 的 性 能 损失 ， 因 为 在 这 种 情况 下 ， 流 水 线 
重新 填充 时 间 和 阻塞 时 间 相 比 是 可 以 忽略 的 。 

同时 多 线程 ( SMT) “是 硬件 多 线程 的 一 个 变种 ， 它 使 用 多 发 射 动 态 调度 处 理 器 的 资源 来 挖 所 
线程 级 并 行 ， 并 同时 保持 指令 级 并 行 。 提 出 SMT 的 主要 原因 是 在 多 发 射 处 理 器 中 通常 有 单线 程 
难以 充分 利用 的 多 个 并 行 功能 单元 。 而 且 ， 借 助 于 寄存 器 重 命名 和 动态 调度 ， 不 需 考虑 它们 之 间 
的 相关 性 即 可 发 射 来 自 不 同 线程 的 多 条 指令 ; 相关 性 的 解决 可 以 由 动态 调度 机 构 来 处 理 。 

骂 然 SMT 是 依赖 于 现 有 的 动态 机 制 ，SMT 不 用 每 个 周期 切换 资源 。 事 实 上 ，SMT 总 是 执行 
来 自 多 个 线程 的 指令 ， 由 硬件 将 指令 槽 和 重 命名 寄存 器 与 适当 的 线程 关联 起 来 。 

图 7-5 说 明了 开发 超标 量 资源 方式 不 同时 处 理 器 能 力 的 差别 。 上 面 的 部 分 表示 四 个 线程 如 何 
在 个 文 持 多 线程 的 超标 量 处 理 器 上 独立 运行 。 下 面 的 部 分 表示 四 个 线程 如 何以 三 种 不 同 的 多 线 
程 方式 在 处 理 器 上 更 加 有 效 地 运行 : 

。 支持 粗 粒 度 多 线程 的 超标 量 

。 支持 细 粒 度 多 线程 的 超标 量 


征 件 多 线程 【hardware muktithreading) ， 在 线程 阻塞 时 处 理 器 可 切换 到 另 一 线程 的 实现 。 

细 和 粒度 多 线程 (find- grained multithreading) :硬件 多 线程 的 种 形式 ， 其 建议 每 条 指令 执行 之 后 都 进行 线程 切换 。 

粗 粒度 多 线程 (coarse- grained multithreading) :硬件 多 线程 的 一 种 形式 ， 其 建议 仅 在 一 些 重要 事件 〈 如 组 存 缺 
失 ) 之 后 进行 线程 切换 。 

癌 时 多 线程 〈simultaneous multithreading，SMT) : 多 线程 的 一 种 形式 ， 其 利用 多 发 射 、 动 态 调度 微 体 系 结构 中 的 
资源 实现 多 线程 ， 从 而 降低 多 线程 的 开销 。 


® 人 OO 
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。 支持 同时 多 线程 的 超标 量 











发 射 模 
线程 A ”线程 8 。 线程 C 。 线程 D 
本 图 7-5 ”四 个 线程 如 何以 不 同方 式 利用 起 
am 标量 处 理 器 中 的 发 射 模 
， 轩 轿 加 加 加 上 面 的 四 个 线程 表示 独立 运行 在 不 支持 多 线程 的 
i 标准 超标 量 处 理 器 上 的 情况 。 下 面 给 出 了 三 个 线程 
i 以 三 种 不 同 多 线程 模式 一 起 执行 时 的 情况 。 水 平方 
向 表示 每 个 时 钟 周期 的 指令 发 射 量 。 垂 直方 向 表示 
发 射 可 一 > 时 钟 周期 的 序列 。 空 块 〈 白 块 ) 表示 在 该 周期 没有 
HH 轩 人 ms 利用 相应 的 发 射 档 。 不 同 灰 度 表 示 多 线程 处 理 器 中 
-和 本 汪汪 的 四 个 不 同 线程 。 尽 管 粗 粒度 多 线程 中 额外 的 流水 
Be 时 上 线 启动 开销 在 本 图 中 没有 标示 ， 但 其 会 导致 更 多 的 
下。 左 导 量 投 失 。 
EE 时 : 


在 不 支持 硬件 多 线程 的 超标 量 处 理 器 中 ， 缺 乏 指令 级 并 行 时 发 射 构 的 利用 受到 限制 。 而 且 ， 
绝 大 多 数 阻 塞 ， 如 指令 缓存 缺失 ， 会 使 整个 处 理 右 空闲 。 

在 粗 粒 度 多 线程 超标 量 处 理 器 中 ， 通 过 切换 到 其 他 使 用 该 处 理 器 资源 的 线程 可 以 部 分 隐藏 
长 阻塞 。 尽 管 这 能 降低 完全 空闲 的 时 钟 周 期 数量 ， 但 是 流水 线 的 启动 开销 仍然 会 带 来 空闲 周期 ， 
并 使 ILP 受到 限制 ， 也 就 是 说 并 非 所 有 发 射 模 都 能 得 到 有 效 利用 。 在 细 粒 度 多 线程 中 ,线程 的 交 
又 执行 几乎 不 会 出 现 发 射 槽 全 空 的 情况 。 但 是 ， 由 于 在 一 个 给 定 的 时 钟 周 期 仅 有 单一 线程 发 射 
指令 ， 指 令 级 并 行 的 限制 仍 会 导致 某 些 时 钟 周期 出 现 空 闲 发 射 槽 。 

在 SMT 中 ， 线 程 级 并 行 和 指令 级 并 行 都 得 到 充分 利用 ， 在 一 个 时 钟 周期 多 个 线程 共同 使 用 
发 射 槽 。 理 想 情况 下 ， 发 射 权 的 使 用 仅 受 多 个 线程 间 资 源 失衡 和 资源 可 用 性 的 限制 。 实 际 上 ， 还 
有 一 些 其 他 因素 限制 可 用 发 射 槽 的 多 少 。 尽 管 图 7-$ 大 大 简化 了 这 些 处 理 器 的 真实 操作 情况 ， 但 
是 它 确 实 从 整体 上 给 出 了 多 线程 潜在 的 性 能 优势 ， 特 别 是 SMT。 例 如 ， 最 近 的 Intel Nehalem 多 核 
处 理 器 支持 两 个 线程 的 SMT， 目 的 是 提高 核 的 利用 率 。 

最 后 总 结 以 下 三 点 : 首先 ， 从 第 1 章 我 们 知道 ， 功 耗 墙 驱 使 处 理 器 芯片 设计 期 着 简单 并 且 有 
效 功 耗 的 方 回 发展。 在 乱 序 处 理 器 中 可 能 需要 精简 未 被 充分 利用 的 资源 ， 并 且 应 当 使 用 多 线程 
的 简单 形式 。 例 如 ，7. 11 节 中 的 Sun UltraSPARC T2 (Niagara 2) 微 处 理 器 是 一 个 回归 简约 的 微 
体系 结构 ， 因 此 其 使 用 了 细 粒 度 多 线程 。 

第 二 ， 容 忍 缓存 缺失 所 引起 的 延迟 是 提高 性 能 的 关键 。 细 粒度 计算 机 (如 UtraSPARC T2 ) 
在 缓存 缺失 时 切换 到 另 一 线程 ， 相 对 于 SMT 试图 填充 未 使 用 发 射 槽 的 方法 ， 在 隐藏 存储 器 延迟 
方面 可 能 更 加 有 效 。 

第 三 ， 硬 件 多 线程 的 目标 是 通过 在 不 同 任务 之 间 共 享 资源 ， 从 而 更 加 有 效 地 使 用 硬件 。 多 核 
设计 也 是 共享 资源 。 例 如 ， 两 个 处 理 器 可 能 共享 一 个 浮 点 单元 或 一 个 三 级 缓存 。 相 对 于 使 用 更 多 
非 多 线程 的 核 ， 这 类 共享 会 减少 多 线程 所 带 来 的 好 处 。 

小 测验 
1) 是 非 判断 : 多 线程 和 多 核 都 依赖 并 行 来 获得 更 高 效率 。 
2) 是 非 判 断 : 同时 多 线程 使 用 线程 提高 动态 调度 的 乱 序 处 理 器 的 资源 使 用 率 。 


7.6 SISD、MIMD、SIMD、SPMD 和 向 量 机 
20 世纪 60 年 代 提出 了 并 行 硬件 的 另 一 种 分 类 方法 ， 并 且 一 直 沿 用 至 今 。 该 分 类 基于 指令 流 
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的 数量 和 数据 流 的 数量 。 图 7-6 给 出 了 该 分 类 方法 。 这 样 ， 常 规 的 单 处 理 器 具有 单一 的 指令 流 和 
单一 的 数据 流 ， 而 常规 的 多 处 理 器 具有 多 个 指令 流 和 多 个 数据 流 。 这 两 种 类 别 分 别称 为 SISD” 
和 MIMDS 






有 


| SISD. Intel Pentium 4 SIMD ，x86 的 SSE 指令 
指令 





MISD;， 目 前 没有 实例 | MIMD， Intel Xeon e5345 CClovenowa) 


图 7-6 基于 指令 流 和 数据 流 数量 的 硬件 分 类 和 实例 ;SISD、SIMD、MISD 和 MIMD 


在 MIMD 计算 机 上 可 以 编写 独立 的 程序 并 运行 在 不 同 的 处 理 器 上 ， 而 且 这 些 程序 可 以 协同 完 
成 一 个 共同 的 大 型 目标 。 但 是 编程 人 员 通 常 仅 编写 单一 程序 ， 将 其 运行 在 MIMD 计算 机 的 所 有 处 
理 髓 上 ， 并 使 用 条 件 语句 控制 不 同 的 处 理 器 执行 不 同 的 代码 段 。 这 种 风格 被 称 作 单 程序 多 数据 
(SPMD) SS， 它 是 MIMD 计算 机 编程 的 正常 方式 。 

很 难 找 到 可 以 归 类 为 多 指令 流 单数 据 流 (MISD) 的 有 效 实例 ， 反 过 来 SIMD 要 有 意义 得 多 。 
SIMD ”计算 机 对 向 量 数据 进行 操作 。 例 如 ， 一 个 单一 的 SIMD 指令 可 以 把 64 个 数 相 加 ， 只 需要 把 
64 个 数据 流 发 送 到 64 个 ALU， 就 可 以 在 一 个 时 钟 周 期 内 得 到 64 个 和 。 

SIMD 的 优点 是 所 有 并 行 执行 单元 都 是 同步 的 ， 它 们 都 对 源 自 同一 程序 计数 器 《PC) 的 同一 
指令 作出 响应 。 从 程序 员 的 角度 来 看 ， 非 常 接近 于 已 经 熟悉 的 SISD。 尽 管 每 个 单元 都 执行 相同 
指令 ， 但 是 每 个 执行 单元 都 有 自己 的 地 址 寄存 器 ， 这 样 每 个 单元 都 有 不 同 的 数据 地 址 。 因 此 ， 根 
据 图 7-1， 一 个 顺序 应 用 程序 编译 后 可 能 运行 于 串 行 硬 件 上 并 按 SISD 组 织 ， 也 可 能 运行 于 并 行 硬 
件 上 按 SIMD 组 织 。 

SIMD 的 初衷 是 在 儿 十 个 执行 单元 之 间 均 摊 控 制 单元 成 本 。 另 外 一 个 优点 是 降低 程序 存储 器 
的 大 小 一 一 SIMD 只 需要 同时 执行 代码 的 一 个 副本 ， 而 消息 传递 的 MIMD 可 能 需要 在 每 个 处 理 器 
都 有 一 份 副本 ， 共 享 存储 器 MIMD 需要 多 个 指令 缓存 。 

SIMD 在 使 用 for 循环 语句 处 理 数组 时 最 为 有 效 。 因 此 ， 为 了 在 SIMD 中 并 行 工 作 ， 必 须 有 大 
量 相同 结构 的 数据 ， 一 般 称 之 为 数据 级 并 行 8。SIMD 在 使 用 case 或 switeb 语句 时 效率 最 低 ， 因 
此 此 时 每 个 执行 单元 必须 根据 不 同 的 数据 执行 不 同 的 操作 。 带 有 错误 数据 的 执行 单元 将 被 所 弃 ， 
而 带 有 正确 数据 的 执行 单元 将 继续 执行 。 在 这 种 情况 下 系统 将 以 1/n 的 性 能 运行 ， 其 中 nn 为 case 
的 分 支 数 量 。 

局 发 了 SIMD 分 类 的 向 量 处 理 器 正 逐 渐 成 为 历史 ( 见 CD 上 的 7.14 节 ) ， 但 是 直到 现在 SIMD 
的 两 种 表示 依然 并 存 。 


7.6.1 在 x86 中 的 SIMD， 多 媒体 扩展 


SIMD 目前 使 用 最 广泛 的 变种 几乎 在 每 个 微 处 理 器 中 都 可 以 找到 ， 并 日 已 经 成 为 x86 微 处 理 
伦 中 数 百 条 MMX 和 SSE 指令 的 基础 ( 见 第 2 章 )。 引 入 这 些 指令 的 目 的 是 提高 多 媒体 程序 的 性 
能 。 这 些 指令 使 得 硬件 具有 许多 并 行 工作 的 ALU， 或 者 说 是 将 一 个 很 宽 的 ALU 分 布 到 许多 并 行 





SISD (Single Instraction stream ， Single Data stream ) ， 单 指令 流 单数 据 流 的 单 处 理 器 。 

MIMD (Multiple Instruction streams, Multiple Data streams) :多 指令 流 多 数据 流 的 多 处 理 器 。 

SPMD (Single Program，Multiple Data streams) : 单程 序 多 数据 流 。 传 统 的 MIMD 缩 程 模型 ， 其 中 个 程序 运行 在 
所 有 处 理 器 之 上 。 

SIMD (Single Instruction stream, Multiple Data streams ) : 单 指令 流 多 数据 流 。 同 样 的 指令 在 多 个 数据 流 上 操作 ， 
和 向量 处 理 器 或 阵列 处 理 器 一 样 。 

数据 级 并 行 〈data-ievei paralielism) : 操作 独立 的 数据 所 获得 的 并 行 。 


@ @ 000 
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工作 的 小 ALU 上 。 例如 ， 一 个 硬件 单元 可 以 是 一 个 64 位 ALU， 也 可 以 是 两 个 32 位 ALU 、 四 个 
16 位 ALU 甚至 八 个 8 位 ALU。 存 储 器 操作 位 宽 与 ALU 是 相同 的 ， 这 样 无 论 是 传输 一 个 64 位 数 
据 元 或 还 是 传递 两 个 32 位 数据 元 、 四 个 16 位 数据 元 或 八 个 8 位 数据 元 ， 程 序 员 都 可 以 认为 数据 
传输 指令 是 相同 的 。 : 

这 种 对 于 位 宽 较 小 的 整数 非常 低 成 本 的 并 行 是 在 x86 中 引入 MMX 指令 的 最 初 想法 。 随 着 麻 
尔 定律 的 发 展 ， 更 多 硬件 已 经 增加 到 多 媒体 扩展 中 来 ， 现 在 SSE2 能 够 支持 一 对 64 位 浮 点 数 的 同 
时 执行 。 

操作 和 寄存 器 的 位 宽 编 码 到 了 多 媒体 指令 的 操作 码 中 。 随 着 操作 和 寄存 器 位 宽 的 变 长 ， 多 
媒体 指令 的 操作 码 数 量 也 在 增加 ， 现 在 已 经 有 数 百 条 SSE 指令 ,可 以 进行 各 种 有 效 的 组 合 ( 见 
第 2 章 ) 。 


7.6.2 向量 机 


SIMD 的 一 个 更 加 古老 和 优雅 的 称呼 是 向 量 体 系 结构 ， 它 几乎 等 同 于 Cray 公司 制造 的 计算 
机 。 向 量 机 结构 与 具有 大 量 数据 并 行 的 问题 非常 匹配 。 除 了 具有 64 个 ALU 可 以 同时 计算 64 次 
加 法 之 外 ， 与 早期 的 阵列 处 理 器 类 似 ， 向 量 体 系 结构 将 ALU 流水 化 ， 从 而 在 低 成 本 下 获得 高 性 
能 。 向 量 体 系 结构 的 基本 理念 是 从 存储 器 中 收集 数据 元 ， 并 将 它们 按 顺序 放 到 一 大 组 寄存 器 中 ， 
然后 在 寄存 器 中 对 它们 依次 操作 ， 最 后 将 结果 写 回 存储 器 。 向 量 体 系 结构 的 关键 特征 是 拥有 一 
组 问 量 寄存 器 。 这 样 ， 向 量 体 系 结构 可 能 拥有 32 个 向 量 寄 存 器 ， 每 个 寄存 器 包含 64 个 64 位 宽 
的 数据 元 。 
5 向 量 机 与 常规 处 理 器 在 代码 上 的 区 别 

假设 我 们 基于 MIPS 指令 集体 系 结构 进行 扩展 ， 增 加 向 量 指令 和 向 量 寄存 器 。 向 量 操作 的 
名 称 与 MIPS 原 有 操作 相同 ， 但 是 在 其 后 增加 一 个 字母 “V”。 例 如 adav a 表示 将 两 个 双 精 度 
向 量 相 加 。 向 量 指令 的 输入 可 以 是 一 对 向 量 寄存 器 (addv. da) ， 也 可 以 一 个 是 向 量 寄 存 器 一 个 
是 标量 寄存 器 (adavs. 9)。 对 于 后 者 ， 标 量 寄存 器 的 值 被 用 于 所 有 操作 的 输入 一 一 aaavs.a 操 
作 将 会 把 标量 寄存 器 的 内 容 加 到 向 量 寄存 器 中 每 个 数据 元 上 。 关 键 词 lv 和 sv 分 别 代 表 向 量 的 
读 入 和 写 回 ， 它 们 完成 整个 双 精 度数 据 向 量 的 读 入 或 写 回 。lv 和 sv 的 一 个 操作 数 是 要 读 入 或 
写 回 的 向 量 寄存 锋 ; 另 一 个 操作 数 是 一 个 MIPS 的 通用 寄存 器 ， 用 来 给 出 向 量 在 存储 器 中 的 起 
始 地 址 。 在 简要 说 明之 后 ， 我 们 看 下 面 的 一 小 段 代码 如 何 从 常规 的 MIPS 代码 转换 成 向 量 
MIPS 代码 : 





Y=axX+Y 
其 中 X 和 YY 是 64 位 双 精 度 浮 点 数 的 向 量 ， 并 且 最 初 保存 在 存储 器 中 ;a 是 一 个 双 精 度 标量 。( 这 
个 例子 就 是 所 谓 的 DAXPY 循环 ， 其 构成 了 Linpack 基准 测试 程序 的 内 部 循环 。DAXPY 表示 doub- 
le precisiona x XplusY。)。 假 定 x 和 YY 的 起 始 地 址 分 别 保存 在 $so 和 $sl 中 。 
针对 DAXPY 的 常规 MIPS 代码 是 : 


l.d $ f0,a(l$ sp) ; 读 入 标量 a 

addiu r4, $ s0， 折 12 2 读 人 的 上 界 
loop: 1.d $ £2,0($0) ; 读 人 人 x (i) 

mul .da $ f2，8 £2, $ f0 :axXx(i) 

1.d $ £4,0($ s1) ; 读 入 y (i) 

add.d $ £4, $ Ff4, $ f2 ;axx(i) ty (i) 


s.d $ Ff4, 0($ s1) ; 写 回 y (i) 
addiu $ s0, $ s0, 牛 ;递增 x 的 索引 
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addiu $ sl, $ si, 相 ;递增 y 的 索引 

subu $ tO0, r4, $ sO ; 计算 边界 

bne $ t0, $§ zero, loop ;检查 是 否 完 成 
针对 DAXPY 的 向 量 MIPS 代码 是 : 
1.d $ £0,a($ sp) . ;恋人 标量 a 
lv $ vi,0($ s0) ; 读 入 辣 量 x 
mulvs.d $ v2, $ vi, $ £0 ; 问 量 与 标量 来 法 
lv $ v3, 0($ s1) ; 读 入 疝 量 y 
addv.d $ v4, $ v2, $ v3 ;将 y 加 到 乘积 上 


SV $ v4, 0($ si) ; 写 何 结果 

针对 上 面 两 段 代码 有 几 点 值得 注意 。 最 引 人 注 目的 是 向 量 处 理 器 大 大 降低 了 动态 指令 带宽 ， 
仅 用 6 条 指令 就 完成 了 接近 600 条 MIPS 指令 的 工作 。 降 低 的 原因 一 是 向 量 操 作 是 在 64 个 数据 元 
上 同时 进行 的 ， 二 是 MIPS 中 接近 一 半 开 销 的 循环 指令 在 向 量 机 代码 中 不 存在 了 。 正 如 你 所 想 的 
一 样 ， 取 指 和 执行 次 数 的 降低 也 会 节省 功 耗 。 

男 外 一 个 重要 的 不 同 点 是 流水 线 相关 的 频率 ( 见 第 4 章 ) 。 在 我 们 直接 编写 的 MIPS 代码 中 ， 
每 次 add.d 必须 等 竺 mul.4， 并 且 每 次 s.a 必须 等 待 aaa.a。 在 向 量 处 理 器 中 ， 每 条 向 量 指令 只 会 
在 每 个 向 量 的 起 始 数据 元 阻塞 ， 在 随后 的 数据 元 会 顺畅 地 通过 流水 线 。 因 此 ， 流 水 线 阻 塞 在 每 次 
向 量 操作 时 只 会 发 生 一 次 ， 而 不 是 每 次 向 量 数据 元 操作 时 发 生 一 次 。 在 这 个 例子 中 ，MIPS 中 的 
流水 线 阻 塞 频率 大 约 比 VMIPS 高 64 倍 。 当 然 ，MIPS 可 以 采用 循环 展开 技术 降低 流水 线 阻塞 频率 
〈 见 第 4 章 ) ， 但 是 指令 带宽 的 巨大 差异 是 无 法 减 小 的 。 

精 解 : 上 面 的 例子 中 循环 次 数 恰 好 等 于 向 量 长 度 。 当 循环 次 数 更 小 时 ， 向 量 体 系 结构 可 以 使 用 降低 向 
量 操 作 长 度 的 寄存 器 。 当 循环 次 数 更 大 时 ， 我 们 可 以 增加 记录 代码 来 迭代 全 长 度 向 量 操 作 ， 最 后 处 理 狮 全 
部 分 。 后 面 的 处 理 过 程 被 称 作 条 状 开采 法 (strip mining) 。 


7. 6. 3 向量 与 标量 的 对 比 


与 常规 的 指令 集体 系 结构 〈 本 部 分 将 其 称 为 标量 体系 结构 ) 相 比 ， 向 量 指令 具有 几 个 重要 
。 一 条 问 量 指令 就 指定 了 大 量 需 要 完成 的 工作 一 一 它 等 价 于 执行 一 个 循环 。 因 而 对 取 指 和 
译 码 带宽 的 需求 显著 降低 了 。 
。 通过 使 用 向 量 指令 ， 编 译 嚣 或 程序 员 隐 含 指明 向 量 中 每 个 结果 的 计算 与 同一 向 量 中 其 他 
结果 的 计算 是 不 相关 的 ， 因 而 硬件 无 需 检 查 一 条 向 量 指令 内 的 数据 相关 。 
相对 于 MIMD 多 处 理 器 ， 包 含 数据 级 并 行 的 应 用 程序 采用 向 量 体 系 结构 和 编译 器 能 够 更 
加 容易 地 编写 高 效 代码 。 
” 硬件 只 需 在 两 条 向 量 指令 之 间 对 每 个 向 量 操作 数 检 查 一 次 数据 相关 ， 而 不 是 对 向 量 内 每 
个 数据 元 检查 一 次 。 相 关 检 查 次 数 的 降低 也 会 使 得 功 耗 降低 。 
访问 存储 器 的 向 基 指 令 具有 确定 的 存 取 模 式 。 如 果 向 量 的 每 个 元 素 都 是 地 址 连续 的 ， 那 
么 从 一 组 交叉 存储 器 组 中 取 回 一 个 向 量 将 会 很 侠 。 因此 ， 对 整个 向 量 而 言 ， 主 存 延 迟 的 
开销 看 上 去 只 有 一 次 ， 而 不 是 对 向 量 中 每 个 字 都 有 一 次 。 
. 因为 整个 循环 用 具有 预定 义 行为 的 向 量 指令 所 替换 ， 循 环 转移 所 引起 的 控制 相关 就 不 存 存 了 
” 太 省 的 指令 带宽 和 相关 检查 以 及 存储 器 带宽 的 有 效 使 用 ， 使 得 向 量 体 系 结构 在 功 耗 方 面 
优 于 标量 体系 结构 。 
由 于 这 些 原因 ， 在 同样 的 数据 量 前 提 下 ， 向 量 操作 比 一 组 标量 操作 序列 更 快 ， 并 旦 如 果 应 用 
程序 可 以 频繁 使 用 这 些 向 量 操作 ， 就 会 促使 设计 者 加 入 向 量 单元 。 
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7.6.4 向量 与 多 媒体 扩展 的 对 比 


与 x86 SSE 多 媒体 指令 扩展 类 似 ， 向 量 指令 可 以 指定 多 种 操作 。 然 而 ， 多 媒体 扩展 一 般 仅 指 
定 几 种 操作 ， 而 向 量 可 以 指定 几 十 种 操作 。 与 多 媒体 扩展 不 同 的 是 ， 向 量 操作 中 分 量 的 数量 不 在 
操作 码 中 ， 而 是 在 一 个 单独 的 寄存 器 中 。 这 意味 着 不 同 版 本 的 向 量 体 系 结构 只 需 修改 该 寄存 器 
的 值 ， 就 能 够 实现 不 同 的 分 量 数量 ， 并 且 能 够 保持 二 进 制 代码 的 兼容 性 。 相 比 之 下 ， 在 x86 的 多 
媒体 扩展 体系 结构 中 ， 每 次 “向 量 ” 长 度 改变 时 都 需要 加 入 大 量 新 的 操作 码 。 

还 有 一 点 与 多 媒体 扩展 不 同 ， 数 据 传输 不 必 是 连续 的 。 向 量 同 时 支持 跨越 存 取 (strided ac- 
cess) 和 变 址 存 取 (indexed access)， 前 者 硬件 每 阳 个 存储 器 中 的 数据 元 读 取 一 次 ,后 者 按照 
数据 项 地 址 读 取 到 向 量 寄存 器 中 。 

与 多 媒体 扩展 类 似 ， 向量 机 可 以 灵活 地 支持 不 同 数据 宽度 ， 因 此 它 既 可 以 在 32 个 64 位 数据 
上 操作 ， 也 可 以 在 64 个 32 位 数据 、128 个 16 位 数据 或 者 256 个 8 位 数据 上 操作 。 

总 的 来 说 ， 向 量 体 系 结构 是 执行 数据 平行 处 理 程序 的 一 种 有 效 途径 ; 相对 多 媒体 扩展 ， 向 量 
机 与 编译 器 技术 更 加 接近 ; 相对 多 媒体 扩展 ， 向 量 机 更 加 容易 随时 间 推 移 而 得 到 不 断 改 进 。 

小 测验 
在 非 判 断 : 以 x86 为 例 ， 多 媒体 扩展 可 以 被 视 作 一 种 采用 短 向 量 的 仅 支 持 顺 序 向 量 数 据 传输 的 向 量 体 
系 结构 。 

精 解 : 在 给 出 了 向 量 体 系 结构 如 此 之 多 的 优点 之 后 ， 考 虑 为 何 向 量 机 没有 在 高 性 能 计算 领域 之 外 流行 
呢 ? 主要 原因 包括 : 向 量 寄存 器 的 巨大 状态 增加 了 上 下 文 切换 时 间 ; 向 量 存 取 产生 的 缺 页 故障 难以 处 理 ， 
SIMD 指令 也 可 以 获得 向 量 指令 的 部 分 优势 。 然 而 ， 最 近来 自 Intel 的 声明 建议 向 量 机 将 发 挥 更 重要 的 作用 。 
Intel 的 先进 向 量 指令 (Advanced Vector Instruction ，AVI) 将 SSE 寄存 器 从 128 位 扩展 到 256 位 ， 并 且 最 终 
将 扩展 到 1024 位 。1024 位 等 价 于 16 个 双 精 度 浮 点 数 的 宽度 。 除 此 之 外 ，Intel 将 在 2010 年 进入 GPU 市 
场 一 一 代码 为 “Larrabee” 据 称 包含 向 量 指令 。 

精 解 : 向 量 和 多 媒体 扩展 的 另外 一 个 优点 是 易于 扩展 一 个 标量 指令 集体 系 结构 ， 使 其 提高 数据 并 行 操 
作 的 性 能 。 


7.7 图形 处 理 单元 简介 

在 现 有 体系 结构 中 增加 SIMD 指令 的 一 个 主要 理由 是 许多 微 处 理 器 都 连接 到 PC 或 工作 站 中 
的 图 形 显示 设 备 上 ， 并 且 用 于 图 形 显示 的 处 理 时 间 所 占 比例 越 来 越 大 。 因 此 ， 当 摩尔 定律 增加 了 
微 处 理 器 设计 中 可 用 晶体 管 数量 时 ， 提 高 图 形 处 理 能 力 就 变 得 有 必要 了 。 

正如 摩尔 定律 使 得 CPU 提高 了 图 形 处 理 能 力 一 样 ， 它 也 使 得 视频 图 形 控 制 芯片 增加 了 加 速 
2D 和 3D 图 形 处 理 的 功能 。 而 且 ， 由 Silicon Graphics 提供 的 高 端 昂贵 显卡 甚至 可 以 加 到 工作 站 
中 ， 用 来 生成 摄影 级 质量 的 图 像 。 这 些 高 端 显卡 普遍 用 于 创建 计算 机 生成 的 图 像 ， 后 来 进入 到 电 
饮 三 告 和 电影 领域 。 因 此 ， 随 着 处 理 资源 的 不 断 增加 ， 视 频 图 形 控制 器 有 着 明确 的 应 用 目标 ， 正 
如 超级 计算 机 拥有 丰富 的 资源 一 样 ， 微 处 理 器 可 以 通过 请 求 超级 计算 机 获取 更 高 的 性 能 。 

提高 图 形 处 理 能 力 的 主要 动力 是 计算 机 游戏 产业 ， 包 括 PC 和 专用 的 游戏 终端 (如 Sony 
PlayStation ) 。 快速 增长 的 游戏 市 场 让 许多 公司 增加 了 快速 图 形 硬件 方面 的 研发 ， 这 种 正 反馈 使 得 
图 形 处 理 能 力 的 增长 超过 了 主流 微 处 理 器 的 通用 处 理 能 力 。 

考虑 到 图 形 和 游戏 社区 与 微 处 理 器 开发 社区 有 着 不 同 的 目 标 ， 它 采用 了 自己 的 一 套 制程 和 
术语 。 随 着 图 形 处 理 器 地 位 的 上 升 ， 它 们 将 自 已 命名 为 图 形 处 理 单元 ( Graphics Processing Unit 
GPU) ， 以 便 区 分 于 CPU。 下 面 是 GPU 与 CPU 的 几 个 主要 差别 ， 

* GPU 是 补充 CPU 的 加 速 器 ， 因 此 它们 不 必 执 行 CPU 的 全 部 任务 。 这 种 定位 使 得 它们 专 
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注 于 图 形 方面 的 资源 。 对 于 一 个 同时 具有 GPU 和 CPU 的 系统 来 说 ，GPU 可 以 对 某 些 任 
务 执行 效率 很 低 甚 至 不 能 完成 ， 因 为 可 以 让 CPU 在 必要 的 时 候 完成 。 所 以 CPU- GPU 的 
组 合 是 异 构 多 处 理 (heterogeneous multiprocessing ) 的 一 个 实例 ， 其 中 并 非 所 有 处 理 器 都 是 相 
同 的 。( 另 外 一 个 实例 是 7.11 节 的 IBM Call 体系 结构 ， 也 是 被 设计 来 加 速 2D 和 3D 图 形 。) 

。 GPU 的 编程 接口 是 高 层次 的 应 用 程序 接口 (application programming interface，API) ， 如 
OpenGL 和 Microsoft 的 DirectX ， 并 与 高 层次 图 形 绘制 语言 紧密 结合 ， 如 NVIDIA 的 Cg 
(C for Craphics) 和 Microsoft 的 HLSL (High Level Shader Language) 。 这 些 语言 的 编译 
孝 的 目标 代码 是 业界 标准 的 中 间 语 言 ， 而 不 是 机 器 指令 。GPU 驱动 软件 会 产生 针对 特 
定 CPU 优化 的 机 锅 指 令 。 这 些 API 和 语言 发 展 迅 速 ， 能 够 包含 摩尔 定律 带 来 的 更 多 
GPU 新 资源 ， 同 时 GPU 设计 者 不 必 考 虑 二 进 制 指令 的 向 后 兼容 性 ， 可 以 不 断 开发 新 的 
体系 结构 ， 而 永远 无 需 因 实 验 失 败 承 担 责任 而 担心 。 这 种 环境 使 得 GPU 的 创新 速度 超 
过 了 CPU。 

。 图 形 处 理 主要 包括 绘制 3D 几何 基 元 〈 如 线 和 三 角形 ) 顶点 、 几 何 基 元 中 像素 片 元 (pix- 

el fragment) 的 着 色 或 演 染 。 例 如 在 视频 游戏 中 ， 需 要 绘制 20 ~ 30 倍 的 像素 和 顶点 。 

每 个 顶点 可 以 独立 绘制 ， 并 且 每 个 像素 片 元 可 以 独立 泻 染 。 为 了 快速 泻 染 一 帧 中 的 数 百 

万 个 像素 ，GCPU 并 行 执行 许多 来 自 顶 点 和 像素 泻 染 程序 的 线程 。 

图 形 数据 的 类 型 是 顶点 〈 由 (xz，y，z，w) 坐标 构成 ) 和 像素 (由 (red，green，blue， 

alpha) 颜色 成 分 构成 ) 。( 参 见 附录 A 了 解 有 关 顶 点 和 像素 的 更 多 内 容 。) GPU 将 每 个 顶 

所 对 象 用 一 个 32 位 浮 点 数 表示 。 四 个 像素 对 象 中 的 任何 一 个 最 初 都 用 一 个 8 位 无 符号 整 

数 表 示 ， 但 是 最 近 的 GPU 开始 用 一 个 0.0 到 1.0 之 间 的 单 精度 浮 点 数 表示 。 

工作 集 可 以 达到 上 亿 字 节 ， 它 所 显示 的 时 间 局 部 性 与 主流 应 用 程序 中 的 数据 并 不 相同 。 

而 且 ， 在 这 些 任务 中 存在 大 量 的 数据 级 并 行 。 

这 些 差异 导致 体系 结构 的 设计 风格 不 同 : 

。 也 许 最 大 的 不 同 就 是 CPU 不 依赖 像 CPU 一 样 的 多 级 缓存 来 隐藏 到 存储 器 的 长 延迟 。 事 

实 上 ，GPU 依赖 足够 的 线程 数量 来 隐藏 到 存储 器 的 延迟 。 也 就 是 说 ， 在 存储 器 请 求 和 数 

据 到 达 之 间 ，GPU 会 执行 数 以 百 计 其 至 数 以 千 计 的 与 该 请 求 无 关 的 线程 。 

CPU 信 助 广泛 的 并 行 来 获得 高 性 能 ， 在 其 内 部 实现 了 许多 并 行 处 理 器 和 并 发 线程 。 

GPU 的 主 存 是 面向 带宽 的 而 不 是 面向 延迟 的 。 黄 至 有 面向 GPU 的 分 离 DRAM 必 有 片 ， 相 对 

于 面向 CPU 的 DRAM， 它 的 宽度 更 大 并 能 提供 更 大 带宽 。 除 此 之 外 ，GPU 存储 器 历来 都 

小 于 常规 微 处 理 器 的 存储 器 。 在 2008 年 ，GPU 一 般 有 不 超过 1 GB 的 存储 器 ， 而 CPU 一 

般 在 2 ~32 GB 之 间 。 最 后 ， 需 要 注意 对 于 通用 计算 ， 必须 将 数据 在 CPU 存储 器 和 GPU 

存储 器 之 间 的 传输 时 间 包 含 进来 ， 因 为 GPU 是 一 个 协 处理 器 。 

考虑 到 GPU 是 通过 许多 线程 的 联合 来 获取 高 存储 器 带宽 ，CPU 可 以 提供 许多 并 行 处 理 器 

也 可 以 提供 许多 线程 。 因 此 ， 每 个 GPU 处 理 器 都 是 高 度 多 线程 的 。 

。 在 过 去 ，GPU 借助 异 构 专 用 处 理 器 提供 图 形 应 用 程序 所 需 的 性 能 。 最 近 的 CPU 正在 朝 着 
和 通用 处 理 器 一 样 的 方向 发 展 ， 在 编程 方面 提供 更 多 的 灵活 性 ， 使 得 GPU 更 像 主流 计算 
中 的 多 核 设计 一 样 。 

。 考虑 到 图 形 数据 的 类 型 具有 四 个 元 索 ，GPU 在 历史 上 采用 像 CPU 一 样 的 SIMD 指令 。 然 
而 ， 最 近 的 GPU 更 加 专注 于 标量 指令 ， 以 便 提高 编程 性 和 效率 。 

。 与 CPU 不 同 的 是 ，GPU 一 直 不 支持 双 精 度 浮 点 算术 ， 内 为 在 图 形 应 用 程序 中 不 需要 这 类 
运算 。 在 2008 年 ， 第 一 个 支持 硬件 双 精 度 的 GPU 问世 了 。 无 论 如 何 ， 单 精度 操作 将 继 
续 比 双 精度 操作 快 8 ~10 倍 ， 即 使 是 在 这 些 新 的 GPU 上 ， 
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尽管 GPU 是 为 众多 应 用 程序 中 很 小 一 部 分 设计 的 ， 但 是 一 些 程序 员 希 望 能 以 某 种 形式 编制 
他 们 的 应 用 ， 以 利用 GPU 内 湾 在 的 高 性 能 。 为 区 别 这 种 使 用 CPU 的 风格 ， 有 些 人 称 之 为 通用 
GPU (General Purpose CPU，GPCPU ) 。 在 厌倦 了 使 用 图 形 API 和 图 形 绘制 语言 描述 问题 之 后 ， 他 
们 开发 了 类 C 编程 语言 ， 可 以 直接 在 CPU 上 编程 。Brook 是 其 中 一 种 ， 它 是 一 种 面向 GPU 的 流 
语言 。NVIDIA 的 CUDA (Compute Unified Device 的 可 编程 性 Architecture ) 无 论 在 硬件 和 编程 语 
言 方面 都 得 到 了 进一步 的 提高 ， 它 使 得 程序 员 可 以 编写 直接 在 GPU 运行 的 C 程序 ， 尽管 仍 有 一 
些 限制 。GPU 在 并 行 计算 方面 的 应 用 随 着 可 编程 性 的 提高 正在 不 断 增 长 。 


7.7.1 NVIDIA GPU 体系 结构 简介 


附录 A 深 人 介绍 了 GPU 和 最 新 的 NVIDIA GPU 体系 结构 Tesla。 因 为 CPU 在 自己 的 应 用 
领域 不 断 改 进 ， 它 们 不 仅 具 有 如 上 所 述 的 不 同体 系 结构 ,而且 使 用 不 同 的 术语 。 在 了 解 这 些 
CPU 术语 之 后 ， 你 会 看 到 与 前 面 章节 介绍 方法 的 相似 性 ， 如 细 粒 度 多 线程 和 向 量 。 

为 了 帮助 你 转换 到 新 的 术语 上 ， 我 们 对 Tesla GPU 体系 结构 中 的 理念 和 术语 以 及 CUDA 编程 
环境 进行 简要 介绍 。 

一 个 分 离 的 CPU 芯片 位 于 一 个 独立 的 卡 上 ， 该 卡通 过 PCI- Express 接口 连接 到 标准 PC 中 。 
所 谓 的 板 载 CPU (motherboard GPU) 是 集成 到 主板 芯片 组 (如 北桥 或 南 桥 ， 见 第 6 章 ) 的 GPU。 

CPU 通常 提供 一 系列 性 价 比 不 等 的 芯片 ， 所 有 软件 均 可 互相 兼容 。 基 于 Tesla 的 GPU 芯片 可 
以 提供 1 ~ 16 个 节点 ，NVIDIA 称 之 为 多 处 理 器 (multiprocessor) 。 在 2008 年 早期 ， 最 大 版 本 是 
CeForce 8800 CIX， 内 会 16 个 多 处 理 器 ， 时 钟 频率 为 1. 35 GHz。 每 个 多 处 理 器 包含 8 个 多 线程 单 
精度 浮 点 单元 和 整数 处 理 单元 ，NVIDIA 称 之 为 流 处 理 器 (streaming processor) 。 

由 于 该 体系 结构 包括 一 个 单 精度 浮 点 乘 加 指令 ， 因 此 8800 GTX 的 单 精度 乘 加 的 最 高 性 
能 是 : 


8 SPs 、2 FLOPs/instr ，linstr .1.35 x lOclocks 16x8gx2x1.35CFLOPs 
16 MPs X 一 -一 x x xX 
M SP clock second second 


_ 345. 6 GFLOPs 


second 
GekForce 8800 GTX 的 16 个 多 处 理 器 中 的 每 一 个 都 有 软件 管理 的 16 KB 局 部 存储 器 和 8192 个 
32 位 寄存 器 。8800 GTX 的 存储 器 系统 由 六 片 900 MHz Graphics DDR3 DRAM 构成 ， 每 个 DRAM 为 
8 字 节 宽度 ， 容 量 为 128 MB。 因 此 存储 器 总 大 小 为 768 MB。GDDR3 的 最 大 存储 器 带宽 是 ， 
8 Bytes x 2 transfers x 0.9 x 10"clocks 6x8x2x0.9GB _ 86. 4 GB 
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transfer clock second second second 

为 了 隐藏 存 储 器 延迟 ， 每 个 流 处 理 器 都 有 硬件 支持 的 线程 。32 个 线程 构成 一 组 ， 称 之 为 
warp。warp 是 调度 的 基本 单位 ， 一 个 warp 内 最 多 有 32 个 活动 线程 以 SIMD 的 方式 并 行 执行 。 该 
多 线程 体系 结构 通过 人 允许 线程 选择 不 同 分 支 路 径 的 方式 来 支持 条 件 语句 。 当 warp 中 的 线程 过 到 
分 文 路 径 时 ，warp 会 使 用 一 些 非 活动 线程 顺序 执行 两 条 分 支 ， 这 使 得 活动 线程 的 执行 速度 减缓 。 
一 旦 分 支 路 径 已 经 完成 ， 硬 件 会 将 线程 返回 到 一 个 完全 活动 的 状态 。 为 了 获得 最 佳 性 能 ， 一 -个 
warp 中 的 32 个 线程 需要 同时 并 行 执行 。 以 类 似 的 方式 ， 硬 件 也 在 不 断 查找 来 自 不 同 线程 的 地 址 
流 ， 以 便 将 独立 的 请 求 尽 可 能 合并 为 数量 较 少 但 是 长 度 较 大 的 存储 器 块 传输 ， 从 而 提高 存储 器 
性 能 。 

图 7-7 将 这 些 特 征 汇总 在 一 起 ， 并 将 Tesla 多 处 理 器 与 Sun UltraSPARC T2 核 ( 见 7.5 节 和 
7.11 市 ) 进行 了 比较 。 两 者 都 是 硬件 多 线程 ， 以 按时 间 调 度 线程 的 方式 ， 在 纵 轴 上 显示 。 横 轴 
显示 出 每 个 Tesla 多 处 理 器 由 8 个 流 处 理 器 构成 ， 每 周期 都 在 执行 8 个 并 行 线程 。 如 上 所 述 ， 当 
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一 个 warp 中 32 个 线程 都 在 以 类 似 SIMD 的 方式 一 起 执行 时 可 达到 最 高 性 能 ，Tesla 体系 结构 称 之 
为 单 指令 多 线程 (single-instruction multiple-thread，SIMT) 。SIMT 可 以 动态 发 现 warp 中 哪些 线程 
能 够 一 起 执行 相同 指令 ， 哪 些 线 程 在 该 周期 处 于 空闲 状态 。7T2 核 仅 包含 一 个 多 线程 处 理 器 。 每 
个 周期 它 执行 来 自 一 个 线程 的 一 条 指令 。 





处 理 器 一 一 > 

UltraSPARC T2 Wi 图 7-7 Sun UltraSPARC T2 (Niagara 

| \ 2) 中 一 个 核 与 一 个 Tesla 多 处 

国 线程 站 Ee 理 硬 的 比较 

国 线程 I 0 了 2 核 是 一 个 单一 的 处 理 器 ， 使 用 硬件 支持 的 
i 国 线程 4 多 线程 技术 ， 线 程 数 量 为 8。Tesla 多 处 理 器 包含 
硬件 支持 mip 8 个 流 处 理 器 ， 也 使 用 硬件 支持 的 多 线程 技术 ， 
的 多 线程 国 = 内 含 24 个 warp， 每 个 warp 内 含 32 个 线程 8 个 
| 一 cr 处 理 器 乘 上 4 个 时 钟 周 期 ) 。72 能 在 每 个 时 钟 周 
线 枉 期 切换 线程 ， 而 Tesla 每 两 个 或 四 个 周期 切换 一 


次 warp。 比 较 两 者 的 一 种 方法 是 T2 仅 能 随时 间 
实现 多 线程 ， 而 Tesla 可 以 随时 间 和 空间 实现 多 
线程 ; 也 就 是 说 ，8 个 流 处 理 器 可 以 按 4 个 时 钟 
周期 分 段 实现 随 空 间 变 化 的 多 线程 。 





Tesla 多 处 理 器 使 用 细 粒 度 硬件 多 线程 随时 间 调 度 24 个 warp， 调 度 时 将 4 个 时 钟 周期 作为 一 
个 时 间 块 ， 如 图 中 的 纵 轴 方 向 所 示 。 与 此 类 似 ，UltraSPARC T2 随时 间 调 度 8 个 硬件 支持 的 线程 ， 
纵 轴 方向 显示 出 每 个 周期 执行 一 个 线程 。 因此， 正如 了 2 硬件 在 不 同 线程 之 间 切 换 保 持 T2 核 -一 直 
处 于 忙碌 状态 一 样 ，Tesla 硬件 也 是 在 不 同 warp 之 间 切 换 以 保持 Tesla 多 处 理 器 一 直 忙 碌 。 主 要 
的 区 别 是 T2 核 仅 有 一 个 处 理 器 ， 因 此 能 够 每 个 时 钟 周期 都 切换 线程 ， 而 在 Tesla 微 处 理 器 中 切换 
warp 的 最 小 单位 是 两 个 时 钟 周 期 切换 8 个 流 核 。 由 于 Tesla 的 定位 是 面向 具有 大 量 数据 级 并 行 的 
程序 ， 设计 者 认为 每 两 个 或 四 个 时 钟 周期 切换 一 次 相对 于 每 时 钟 周期 切换 一 次 的 性 能 差别 很 小 ， 
而 限制 切换 频率 极 大 简化 了 硬件 设计 。 

CUDA 编程 环境 也 有 自己 的 术语 。 一 个 CUDA 程序 是 用 于 蜡 构 CPU 和 GPU 的 一 个 统一 的 
C/C++ 程序 。 它 在 CPU 上 执行 ， 并 将 并 行 任务 分 派 到 GPU 上 。 这 项 工作 由 来 自 主 存 的 数据 
传输 和 线程 分 配 (thread dispatch) 构成 。 线 程 是 GPU 程序 的 一 段 代码 。 由 程序 员 指 定 线程 块 
(thread block) 中 的 线程 数量 ， 以 及 希望 在 GPU 上 开始 执行 的 线程 块 的 数量 。 由 程序 员 指 定 线 
程 决 的 原因 在 于 线程 块 中 的 所 有 线程 都 会 调度 到 同一 多 处 理 器 执行 . 它们 全 部 共享 同一 局 部 
存储 器 。 因 此 它们 可 以 通过 存 取 操作 而 不 是 消息 机 制 实现 通信 。CUDA 编译 器 为 每 个 线程 分 配 
寄存 器 ， 约束 是 每 线程 的 寄存 器 数量 乘 上 每 线程 块 的 线程 数量 不 超过 每 个 多 处 理 器 包含 的 
8192 个 寄存 器 。 

一 个 线程 块 最 多 有 512 个 线程 。 线 程 块 中 的 每 32 个 线程 构成 一 组 ， 封装 为 warp。 大 的 线程 
决 相对 小 的 线程 块 效率 更 高 ， 但 是 线程 块 也 可 以 小 到 只 有 一 个 线程 。 如 上 所 述 ， 小 于 32 个 线程 
的 线程 块 和 warp 的 执行 效率 没有 填 满 的 warp 高 。 

硬件 调度 器 总 是 试图 调度 每 个 多 处 理 器 中 尽 可 能 多 的 线程 块 、 如 果 调 度 成 功 ， 调 度 器 也 负 
责 将 16 KB 局 部 存储 器 在 不 同 线程 块 之 间 进 行动 态 划分 。 


7.7.2 深入 理解 GPU 
像 NVIDIA Tesla 体系 结构 一 样 的 GPU 不 能 完全 归 于 前 面 所 讲 到 的 计算 机 分 类 中 ( 见 图 7-6)。 显 
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然 ， 内 含 16 个 Tesla 多 处 理 需 的 GeForce 8800 GTX 是 一 个 MIMD。 问 题 是 Tesla 多 处 理 器 和 构成 Tesla 
多 处 理 器 的 8 个 流 处 理 器 该 如 何 归 类 ? : 

回顾 我 们 前 面谈 到 的 SIMD， 它 适合 for 循环 语句 编程 ， 但 是 不 适合 case 和 switch 语句 编程 。 
Tesla 的 目标 是 为 数据 级 并 行 提供 高 性 能 计算 能 力 ， 同 时 让 程序 员 易 于 处 理 独 立 的 线程 级 并 行 。 
Tesla 允许 程序 员 认 为 该 多 处 理 器 是 由 8 个 流 处 理 器 构成 的 多 线程 MIMD， 但 是 当 同 一 warp 中 的 
多 个 线程 可 以 一 起 执行 时 ， 便 件 义 试图 将 8 个 流 处 理 器 结合 在 一 起 以 SIMT 的 方式 工作 。 当 者 干 
线程 独立 工作 并 沿 着 独立 的 执行 路 径 时 ， 它 们 的 执行 速度 要 比 SIMT 方式 低 得 多 ， 因 为 一 个 warp 
中 的 32 个 线程 是 共享 一 个 指令 取 指 单元 的 。 如 果 一 个 warp 中 的 32 个 线程 都 执行 独立 指令 ， 每 
个 线程 都 会 以 峰值 性 能 的 1716 在 运行 。 如 果 每 隔 4 个 时 钟 一 个 warp 都 有 32 个 线程 可 以 执行 在 8 
个 流 处 理 器 上 ， 那 么 系统 就 达到 峰值 性 能 。 

因此 ， 每 个 独立 的 线程 都 有 自己 的 有 效 PC， 程 序 员 可 以 认为 Tesla 多 处 理 器 是 MIMD ， 但 是 
程序 员 必 须 谨 慎 处 理 控制 转移 语句 ， 以 便 允 许 SIMT 硬件 按 SIMD 的 方式 执行 CUDA 程序 ， 从 而 
获得 预期 的 性 能 。 

与 向 量 体 系 结构 相 比 ， 向 量 体 系 结构 需要 借助 向 量化 编译 器 在 编译 时 识别 数据 级 并 行 ， 并 
产生 相应 的 向 量 指 令 ; 而 Tesla 体系 结构 的 硬件 实现 可 以 在 运行 时 发 现 线程 间 的 数据 级 并 行 。 因 
此 ，Tesla CPU 不 需要 向 量化 编译 器 ， 并 使 得 程序 员 更 加 容易 处 理 没有 数据 级 并 行 的 那 部 分 代码 。 
为 了 这 和 人 理解 这 一 独特 的 方法 ， 图 7-8 对 GPU 按照 如 下 标准 进行 了 分 类 : 是 指令 级 并 行 还 是 数 
据 级 并 行 ， 是 在 编译 时 发 现 并 行 还 是 在 运行 时 发 现 并 行 。 这 一 分 类 标志 着 Tesla GPU 为 计算 机 体 
系 结构 开辟 出 一 片 新 天 地 。 




















数据 级 并 行 SIMD 或 向 量 机 Tesla 多 处 理 器 


7-8 ”基于 静态 /动态 和 ILP/DLP 的 处 理 器 体系 结构 的 硬件 分 类 及 实例 





小 测验 


是 非 判 断 ，GPU 借助 图 形 DRAM 芯片 来 降低 存储 器 延迟 ， 从 而 提高 图 形 应 用 程序 的 性 能 。 


/8 多 处 理 器 网 络 拓扑 简介 


多 核 必 片 需要 使 用 片上 网 络 将 各 个 核 连接 到 一 起 。 本 节 讨 论 不 同 多 处 理 器 网 络 的 优点 与 
缺点 。 

网 络 成 本 包括 开关 的 数量 、 每 个 开关 连接 到 网 络 上 的 链 路 数量 、 每 条 链 路 的 宽度 ( 比特 数 ，) 
以 及 网 络 映 射 到 芯片 时 链 路 的 长 度 。 例 如 ， 某 些 核 可 能 是 相 邻 的 ， 而 其 他 核 可 能 在 芯片 另 一 端 。 
网 络 性 能 也 是 多 方面 的 。 它 包括 在 一 个 无 负载 的 网 络 中 发 送 和 接收 消息 的 延迟 ， 按 照 在 给 定时 
间 周 期 内 能 够 传输 的 最 大 消息 数量 所 给 出 的 吞吐 量 ， 由 于 网 络 冲突 导致 的 延迟 ， 以 及 由 通信 模 
式 决 定 的 可 变性 能 。 网 络 的 另 一 责任 是 容错 ， 因 为 系统 可 能 需要 在 存在 部 件 受 损 的 情况 下 继续 
工作 。 最 后 ， 在 这 芯片 设计 受 功 耗 限制 的 时 代 里 ， 不 同 组 织 结构 具有 不 同 功效 ， 功 耗 可 能 超越 其 
他 考虑 因素 而 成 为 主导 因素 。 

网 络 通常 绘制 为 图 形 表示 ， 图 中 的 每 条 弧 表 示 通 信 网 络 中 的 一 条 链 路 。 处 理 器 - 存储 器 
六 所 用 一 个 黑色 方块 表示 ， 而 开关 用 一 个 灰色 圆 形 表示 。 在 本 节 中 ， 所 有 链 路 都 是 双向 的 ， 
也 就 是 说 ,信息 可 以 向 两 个 方向 流动 。 所 有 网 络 都 由 开关 构成 ， 开 关 负 责 建立 处 理 器 - 存储 
锯 节 友和 其 他 开关 的 链接 。 网 络 相 对 总 线 的 第 一 个 改进 就 是 网 络 将 若干 节点 组 成 的 序列 连接 
到 了 一 起 。 : / 
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该 拓扑 叫做 环 (ring) 。 由 于 一 些 节点 不 是 直接 连接 的 ， 一 些 信息 将 不 得 不 经 过 中 间 节 点 最 
终 到 达 目 标 节点 。 z 

和 总 线 不 同 的 是 ， 环 可 以 同时 进行 多 个 传输 。 因 为 有 众多 的 拓扑 可 以 选择 ， 所 以 需要 辨别 这 
些 不 同 设计 的 性 能 度量 。 主 要 有 两 个 常用 的 性 能 度量 。 第 一 个 是 总 网 络 带 宽 ”， 它 是 每 条 链 路 带 
宽 与 链 路 数量 的 乘积 。 该 度量 表示 网 络 最 好 情况 下 的 性 能 。 对 于 上 面 的 环 网 络 ， 如 果 处 理 器 数量 
为 已， 那么 总 网 络 带 宽 就 是 一 条 链 路 带宽 的 己 倍 ; 一 条 总 线 的 总 网 络 带宽 仅仅 是 该 总 线 的 带宽 ， 
也 就 是 该 链 路 带宽 的 两 倍 。 

为 了 不 只 评估 最 好 情况 下 的 性 能 ,我 们 引入 一 个 接近 于 最 差 情况 的 度量 : 切 分 带宽 2。 它 的 
计算 是 通过 将 机 器 分 割 为 两 个 部 分 ， 每 一 部 分 都 包含 一 半 节 点 。 然 后 将 跨越 假想 分 割 线 的 链 路 
带宽 加 起 来 。 环 的 切 分 带宽 是 链 路 带宽 的 两 倍 ， 是 总 线 链 路 带宽 的 一 倍 。 如 果 单 一 链 路 和 总 线 一 
样 快 ， 那么 环 在 最 差 情况 下 是 总 线 速度 的 两 倍 ， 而 在 最 好 情况 下 是 总 线 的 PP 倍 。 

某 些 网 络 拓 扑 是 非 对 称 的 ， 那 么 在 切 分 网 络 时 会 产生 一 个 间 题 、 在 哪里 进行 假想 切 分 。 由 于 
这 是 一 个 针对 最 差 情况 的 度量 ， 因 此 答案 就 是 选择 会 导致 最 差 网 络 性 能 的 切 分 方式 。 换 句 话说 ， 
就 是 计算 所 有 可 能 的 切 分 带宽 ， 然 后 选择 其 中 最 小 的 一 个 作为 最 终结 果 。 我 们 之 所 以 选择 这 种 
最 差 情况 ， 是 因为 并 行程 序 常常 受 通 信和 链 中 最 薄弱 链 路 的 限制 。 

相对 于 环 的 另 一 个 极端 是 全 连接 网 络 。， 其 中 每 个 处 理 器 都 与 其 他 处 理 器 具有 一 个 双向 链 
路 。 对 全 连接 网 络 ， 总 网 络 带 宽 是 已 x (P -1)/2， 而 切 分 带宽 是 (P/2)?。 

全 连接 网 络 对 性 能 的 极 大 提升 被 成 本 的 急剧 增加 所 抵消 了 。 这 激励 工程 师 不 断 创 造 出 介 于 
环 的 成 本 和 全 连接 网 络 的 性 能 之 间 的 新 型 拓扑 。 评 估 是 否 成 功 ， 很 大 程度 上 依赖 于 机 器 上 所 运 
行 的 并 行程 序 负载 的 通讯 特征 。 

各 种 公开 发 布 的 不 同 拓扑 可 能 难以 计数 ， 但 是 只 有 少数 几 个 已 经 用 于 商业 并 行 处 理 器 中 。 
图 7-9 给 出 了 两 种 常见 拓扑 。 在 实际 的 机 器 中 常常 在 这 些 简单 拓扑 中 增加 一 些 额 外 的 链 路 以 提高 
性 能 和 可 靠 性 。 


图 /-9 已 经 出 现在 商业 并 行 处 理 器 中 的 网 络 拓扑 
a) 16 个 节点 的 2 -D 网 格 ; ,b) 8 个 节点 的 nm 维 立 方 体 

其 中 灰色 图形 表示 开关 ， 而 黑色 方块 表示 处 理 器 - 存 
储 右 节点 。 尽 管 一 个 开关 可 以 有 多 个 链 路 ,但 是 通常 只 
有 一 个 连接 到 处 理 器 。 布 尔 r 维 立方 体 拓扑 是 一 个 使 用 
2" 个 节点 构成 的 n 维 互 连 ， 每 个 开关 需要 n 个 链 路 (并 
加 上 一 个 处 理 器 链 路 ) ， 因 而 存在 mn 个 最 近 相 邻 节点 。 这 
些 基本 拓扑 常常 会 补充 一 些 额 外 链 路 ， 从 而 提高 性 能 和 
可 靠 性 。 





除了 在 网 络 中 每 个 节点 都 放置 一 个 处 理 器 之 外 ， 也 可 以 在 某 些 节点 只 保留 开关 这 些 开 


日 ”网 络 带 宽 (network bandwidth) ， 非 正式 用 庄 ， 用 于 家 示 网 络 传输 速度 的 峰值 ， 既 可 以 指 单一 链 
以 指 网 络 中 全 部 链 路 的 共同 的 传输 速度 ， 的 速度 ， 也 可 


人 (bisection bandwidth) : 多 处 理 器 中 两 个 相等 部 分 之 间 的 带宽 。 这 种 测量 可 以 表示 对 多 处 理 器 的 最 差 拆 


晤 全 连接 网 络 (fully connected network ) : 通过 专用 通信 和 链 路 连接 所 有 处 理 器 -存储 器 节点 的 网 络 。 


DO 
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关 相对 处 理 器 - 存储 器 - 开关 节点 更 小 ， 因 此 可 以 放置 得 更 密集 一 些 ， 进 而 缩短 距离 提高 性 
能 。 这 样 的 网 络 一 般 称 为 多 级 网 络 S>， 因 为 信息 需要 多 级 传输 才能 到 达 目 的 地 。 多 级 网 络 的 类 
型 和 单 级 网 络 是 一 样 多 的 ; 图 7-10 给 出 了 两 种 常见 的 多 级 结构 。 全 连接 网 络 或 交叉 开关 网 
络 人 允许 任何 节点 一 次 就 可 以 通过 网 络 与 其 他 任何 节点 通信 。Omega 网 络 相 对 交叉 开关 网 络 使 
用 更 少 的 硬件 (前 者 需要 2nlogsn 个 开关 ， 后 者 需要 rn? 个 开关 ) ,但 是 消息 之 间 可 能 会 发 生 冲 
突 ， 这 取决 于 通信 模式 。 例 如， 图 7-10 中 的 Omega 网 络 在 从 PO 向 P6 发 送信 息 的 同时 ， 不 能 
从 Pl 向 P7 发 送信 息 。 





c) 


7-10 常见 的 八 节点 多 级 网 络 拓扑 
a) 交叉 开关 ; b) Omega 网 络 ; ec) Omega 网 络 的 开关 盒 
本 图 中 的 开关 相对 前 面 的 更 加 简单 ， 因 为 本 图 的 链 路 是 单 向 的 ; 数据 从 底部 进入 ， 从 右边 的 链 路 退出 。C 
中 的 开关 盒 可 以 将 A 传送 到 C、 将 B 传送 到 D， 或 将 B 传送 到 C、 将 A 传送 到 D。 交叉 开关 使 用 n? 个 开关 ， 
其 中 是 处 理 锅 的 数量 ， 而 Omega 网 络 需 要 2nlog,n 个 大 的 开关 盒 ， 其 中 每 个 开关 盒 逻 辑 上 由 4 个 更 小 的 开关 
组 成 。 在 这 种 情况 下 ， 交 叉 开关 网 络 需 要 64 个 开关 ， 而 Omega 网 络 需 要 12 个 开关 盒 ， 相 当 于 48 个 开关 。 但 
是 ， 交 又 开关 网 络 可 以 支持 处 理 器 消息 传递 的 任意 组 合 ， 而 Omega 网 络 却 不 能 。 


网 络 拓扑 实现 


在 本 节 对 所 有 网 络 简单 分 析 的 时 候 , 忽略 了 一 些 在 网 络 构 建 时 需要 考虑 的 一 些 实际 因素 。 
在 高 速 时 钟 下 ， 链 路 的 距离 影响 通信 成 本 一 一 一般 来 说 ， 距 离 越 长 ， 在 高 速 时 钟 下 的 成 本 越 
六 。 较 短 的 距离 也 会 使 得 更 加 容易 地 将 更 多 的 连 线 增加 到 同一 链 路 中 ， 因 为 芯片 内 连 线 越 短 


昌 、 多 级 网 络 (multistage network) ， 每 个 节点 提供 一 个 小 开关 的 网 络 。 
加 ”交叉 开关 网 络 (crossbar network) ， 任何 一 个 需 一 次 即 可 与 其 他 任意 一 个 节点 通信 的 网 络 。 
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驱动 连 线 的 功 耗 就 会 越 低 。 较 短 的 连 线 也 比较 长 的 连 线 便 宜 。 另 外 一 个 实际 限制 是 三 维 拓扑 
连 线 必 须 映 射 到 芯片 的 二 维 媒介 上 。 最 后 一 点 需要 考虑 的 是 功 耗 。 例 如 ， 功 耗 可 能 迫使 多 核 
必 片 必须 采用 简单 网 格 拓扑 。 总 之 ， 在 黑板 上 画 上 很 美的 拓扑 ， 在 使 用 硅 工 艺 制 造 时 可 能 是 


不 切实 际 的 。 


7.9 多 处 理 器 基准 测试 程序 

在 第 1 章 中 我 们 看 到 ， 基 准 测试 系统 一 直 是 一 个 敏感 话题 ， 因 为 它 是 判断 哪个 系统 更 好 的 一 
种 最 为 直观 的 方式 。 测 试 结果 不 仅 影 响 商业 系统 的 销售 ， 而 且 影响 这 些 系统 设计 者 的 声誉 。 因 
些 ， 每 个 参加 测试 者 都 希望 自己 获胜 ， 但 是 如 果 别 人 获胜 ， 他 们 也 希望 确信 获胜 者 的 系统 真正 是 
一 个 更 好 的 系统 。 这 些 期 望 导致 测试 结果 不 能 只 是 针对 测试 程序 的 简单 伎俩 ， 而 应 该 能 够 真正 
促进 实际 应 用 程序 性 能 的 提高 。 

为 了 避免 可 能 的 作 整 ， 一 个 典型 的 原则 是 你 不 能 修改 基准 测试 程序 。 源 代码 和 数据 集 是 固 
定 的， 并 且 只 有 唯一 的 正确 结果 。 对 这 些 原则 的 任何 违反 都 会 使 得 测试 结果 无 效 。 

许多 多 处 理 器 基准 测试 程序 都 遵守 这 些 惯 例 。 一 个 共同 的 例外 是 允许 增加 问题 规模 ， 这 样 
你 就 可 以 在 有 不 同 数 量 处 理 器 的 系统 上 运行 。 也 就 是 说 ， 许 多 基准 测试 程序 允许 弱 比 例 缩放 而 
个 是 强 比 例 缩放 ， 但 即便 如 此 ， 在 比较 不 同 问题 规模 的 程序 结果 时 仍 要 小 心 。 

图 7-11 是 对 几 种 并 行 基准 测试 程序 的 总 结 。 描 述 如 下 ， 
Linpack 是 一 组 线性 代数 例 程 ， 这 些 例 程 执行 高 斯 消 元 。 前 面 示例 中 给 出 的 DAXPY 例 程 
就 是 Linpack 基准 测试 程序 中 的 一 小 部 分 代码 片段 ,但 是 它 占 用 了 该 基准 测试 程序 的 大 
部 分 热 行 时 间 。 它 允许 弱 比 例 缩放 ， 让 用 户 选择 任何 规模 的 问题 。 而 且 ， 它 允许 使 用 者 
以 任何 形式 和 任何 语言 重 写 Linpack ， 只 要 保持 计算 结果 的 正确 性 。 每 隔 两 年 计算 Lin- 
pack 最 快 的 500 台 计 算 机 会 公布 在 www.topS00.org 上 。 排名 第 一 的 被 新 闻 界 认为 是 世界 
上 最 快 的 计算 机 。 
SPECrate 是 一 个 基于 SPEC CPU 基准 测试 程序 (如 SPEC CPU 2006， 见 第 1 章 ) 的 吞吐 量 
度量 。SPECrate 不 是 报告 单个 程序 的 性 能 ， 而 是 同时 运行 该 程序 的 很 多 副本 。 因此 , 它 
主要 测量 作业 级 并 行 ， 因 为 这 些 作 业 之 间 没 有 通信 。 程 序 的 副本 数量 是 不 受 限制 的 ， 因 
此 这 也 是 纶 比例 缩放 的 形式 。 
SPLASH 和 SPLASH 2 (Stanford Parallel Applications for Shared Memory) 是 20 世纪 90 年 代 
斯 坦 福 大 学 的 研究 成 果 ， 目 的 是 提供 类 似 于 SPEC CPU 一 样 的 并 行 基准 测试 程序 。 它 由 
核心 程序 和 应 用 程序 构成 ， 许 多 都 来 自 高 性 能 计算 领域 。 该 程序 需要 强 比 例 缩放 ， 尽 管 
它 提供 了 两 组 数据 集 。 
NAS (NASA Advanced Supercomputing) 并 行 基准 测 试 程序 是 20 世纪 90 年 代 以 来 对 多 处 
理 囊 基准 测试 程序 的 另 一 尝试 。 它 由 五 个 核心 构成 ， 都 是 来 源 于 流体 动力 学 。 它 允许 通 
过 定义 几 个 数据 集 实 现 弱 比例 缩放 ， 但 是 编程 语言 只 能 使 用 C 或 Fortran 。 
最 近 的 PARSEC ( Princeton Application Repository for Shared Memory Computer) 基准 测试 程 
序 集 由 采用 Pthread” (POSIX 线程 ) 和 OpenMP® (Open MultiProcessing) 的 多 线程 程序 
组 成 。 它 们 主要 专注 于 新 兴 市 场 ， 由 9 个 应 用 程序 和 3 个 核 构 成 。 其 中 8 个 依赖 数据 并 
行 ，3 个 依赖 流水 并 行 ， 另 外 一 个 依赖 非 结构 化 并 行 。 


Pthread ;创建 和 操作 线程 的 一 个 UNIX API。 它 使 用 一 个 库 提 供 。 - 
OpenMP: 在 C、C ++ 或 Fortran 中 用 于 共享 内 存 多 处 理 编程 的 APL， 可 以 运行 于 UNIX 和 Mierosof. 平台 。 它 包括 
编译 器 指示 、 一 个 库 和 运行 时 指示 。 


DO 
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基准 测试 程序 。” ”| ”比例 缩放 ? ” 重 编程 ? i 说 明 


pk | 又 | 是 | 向 拓 了 线 性 代数 [Donenma，1979] 
EE 


人 发 [eming, 2007] ， 


复杂 一 维 FFT 
是 《 仅 支 持 C 或 










分 块 LU 分 解 
分 块 稀疏 楚 列 斯 基因 式 分 解 
整数 基数 排序 

Bames- Hut 算法 

自 适应 快速 多 极 子 算法 

海洋 模拟 

种 源 光 能 辐射 

光线 追踪 

体 绘制 程序 

带 有 空间 坐标 数据 结构 的 水 模拟 
不 带 有 空间 坐标 数据 结构 的 水 模拟 


EP: 高 度 并 行 
MG: 简化 的 多 重 网 格 

CG: 用 于 共 殊 梯度 方法 的 非 结构 化 网 格 
FT: 使 用 FFT 对 3D 偏 微分 方程 求解 
IS: 超大 整数 排序 


Blackscholes: 使 用 Black- Schole 偏 微分 方程 的 
期 权 定 价 

Bodytrack: 人 体 追 踪 

Canneal: 用 于 优化 路 由 选择 的 缓存 感知 模拟 退 
火 算法 

Dedup; 支持 重复 数据 删除 的 下 一 代 压 缩 算法 
Facesim: 面部 表情 的 模拟 

Feret: 内 容 相似 度 搜索 服务 器 
Fluidanimate: 使 用 SPH 方法 的 流体 动力 学 演示 
Freqmine: 频繁 项 集 挖 扬 

Streamcluster: 对 一 个 输入 流 的 在 线 聚 类 
Swaptions; 期权 组 合 定价 

Vips: 图 形 处 理 

x264 ; H. 264 视频 编码 









强 (尽管 提供 两 
种 问题 规模 ) 






SPLASH 2 [ Woo 等 ，1995 ] 










NAS 并 行 基准 测试 程序 
[ Bailey 等 ，1991 ] 















PARSEC 基准 测试 程序 集 
[ Bienia 等 ，2008 ] 
























有 限 状态 机 
组 合 逻 辑 
图 遍历 
结构 化 网 格 
稠密 矩阵 
稀疏 矩阵 
波谱 法 (FFT) 
动态 编程 

多 体 问题 
MapReduce 
限界 回调 算法 
| 图 模型 推理 

非 结 构 化 网 格 


图 7-11 并 行 基准 测试 程序 的 实例 


基准 测试 程序 原 有 约束 所 造成 的 负面 影响 是 创新 被 局 限 到 体系 结构 和 编译 器 中 。 更 好 的 数 
据 结构 、 算 法 、 编 程 语言 等 通常 不 能 使 用 ， 因 为 这 些 可 能 导致 容易 误解 的 结果 。 这 样 系统 可 能 不 












Berkeley 设计 模式 「 Asanovic 
等 ，2006 ] 
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是 由 于 硬件 或 编译 器 的 原因 获得 更 高 性 能 ， 例 如 算法 。 

这 些 准则 在 计算 基础 相对 稳定 时 是 可 以 理解 的 一 一 因为 它们 是 在 20 世纪 90 年 代 提 出 的 ， 而 
且 是 在 90 年 代 的 前 五 年 。 但 是 ， 这 些 准则 在 变革 开始 之 后 就 不 合 时 宜 了 。 为 了 变革 的 成 功 ， 我 
们 需要 鼓励 在 所 有 层次 上 的 创新 。 

加 利 福 尼 亚 大 学 伯克利 分 校 的 研究 人 员 提 出 了 一 个 最 新 的 方法 。 他 们 识别 了 13 个 面向 未 来 
应 用 程序 的 设计 模式 。 这 些 设 计 模式 使 用 框架 或 核心 实现 。 一 些 实例 包括 稀疏 和 矩阵、 结构 化 网 
格 、 有 限 状态 机 、 映 射 规约 和 图 遍历 等 。 通 过 将 定义 保持 在 高 级 别 层 次 ， 他 们 希望 鼓励 在 系统 的 
任何 层次 创新 。 因 此 ,具有 速度 最 快 的 稀 朴 矩阵 求解 器 的 系统 除了 使 用 新 型 体系 结构 和 编译 器 
之 外 ， 还 可 以 使 用 任何 数据 结构 、 算 法 和 编程 语言 。 我 们 将 在 7. 11 节 看 到 此 类 基准 测试 程序 的 
实例 。 
WE 

是 非 判 断 : 评测 并 行 计算 的 常规 方法 的 主要 缺陷 是 确保 公平 性 的 同时 压制 了 创新 。 


7. 10 ”Roofline， 一 个 简单 的 性 能 模型 

本 全 基于 Williams 和 Patterson 2008 年 的 一 篇 论文 。 近 几 年 ,计算 机 体系 结构 中 普遍 认同 的 
传统 观点 导致 了 微 处 理 器 设计 间 的 相似 性 。 几 乎 每 台 桌 面 计算 机 或 服务 器 都 使 用 缓存 、 流 水 线 、 
超标 量 指令 槽 、 分 支 预测 和 乱 序 执行 。 尽 管 指 令 集 不 同 ， 但 是 所 有 微 处 理 器 的 设计 如 出 一 梳 。 

多 核 时 代 的 到 来 可 能 标志 着 微 处 理 器 日 趋 多 样 化 ， 因 为 目前 尚 无 一 个 公认 的 体系 结构 能 以 
最 简单 的 方式 支持 编写 并 行 处 理 程序 并 有 效 运 行 ， 且 能 随 着 时 间 推 移 根据 处 理 器 核 数 按 比例 缩 
放 。 而 且 ， 由 于 每 芯片 核 的 数量 确实 在 不 断 增加 ， 一 家 制造 商 希望 同时 提供 每 芯片 内 包含 不 同 数 
量 核 的 产品 以 满足 不 同 价位 的 要 求 。 

考虑 到 不 断 增加 的 多 样 性 ， 如 果 我 们 能 拥有 一 个 简单 的 模型 将 是 十 分 有 益 的 ， 可 以 用 其 分 
析 不 同 设计 的 性 能 。 这 个 模型 不 需要 是 完美 的 ， 只 要 有 所 见地 就 行 。 

第 5 章 的 3C 模型 并 不 是 一 个 完美 的 模型 ， 因 为 它 忽略 了 一 些 潜在 的 重要 因素 ， 如 块 尺寸 大 
小 、 块 分 配 策略 和 块 替 换 策略 。 而 且 ， 它 还 含有 一 些 含糊 其 辞 的 地 方 。 例 如 ， 缓 存 缺失 的 原因 在 
一 个 设计 中 可 能 是 因为 容量 ,但 在 另 一 个 相同 大 小 的 缓存 中 可 能 是 因为 冲突 。 然 而 3C 模型 已 经 
流行 了 20 年 ， 因 为 它 提供 了 深刻 理解 程序 行为 的 一 个 途径 ， 有 助 于 体系 结构 设计 者 和 程序 员 基 
于 模型 的 洞察 来 改进 他 们 的 创新 。 

为 了 找到 这 样 一 个 模型 ， 让 我 们 从 图 7-11 中 的 13 个 Berkeley 设计 模式 开始 。 设 计 模式 的 想 
法 是 : 一 个 给 定 的 应 用 程序 性 能 是 实现 这 些 设计 模式 若干 核心 的 加 权 和 。 我 们 将 在 这 里 评估 每 
个 核心 ， 但 是 需要 注意 的 是 ， 实 际 的 应 用 程序 是 许多 核心 的 组 合 。 

尽管 有 不 同 数据 类 型 的 许多 版 本 ,但 是 浮 点 在 几 种 实现 中 是 最 常见 的 。 因 此 ， 在 给 定 的 
计算 机 上 峰值 浮 点 性 能 是 这 类 核心 的 速度 瓶颈 。 对 于 多 核 芯片 ， 峰 值 浮 点 性 能 是 芯片 上 所 下 
处 理 器 核 峰 值 性 能 的 总 和 。 如 果 系 统 中 包含 多 处 理 器 ， 那 么 应 当 将 每 芯片 的 峰值 性 能 与 芯片 
数量 相 乘 。 

对 存储 器 系统 的 需求 可 以 用 峰值 浮 点 性 能 除 以 每 访问 一 字 节 所 包含 浮 点 操作 数 的 平均 值 来 估算 ， 

浮 点 操作 数 v 秒 
浮 点 操作 数 / 字 节 = 学 市 /用 
存储 器 每 访问 一 字 节 所 包含 的 浮 点 操作 比例 被 称 作 算术 密度 =。 它 的 计算 可 以 用 程序 中 总 的 











OO 算术 密度 ( arithmetic intensity) : 一 个 程序 中 浮 点 操作 数量 与 访问 主 在 字 节 数量 的 比值 
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浮 点 操作 数 除 以 程序 执行 期 间 主 存 传输 数据 总 的 字 节 数 。 图 7-12 给 出 了 图 7-11 中 几 种 Berkeley 
设计 模式 的 算术 密度 。 











1 窗 集 类 降 | Nebey yp 
稀疏 和 矩阵 结构 网 格 ”| 结构 网 格 叶 变 换 ) ee 
( 稀 玖 矩阵 (模板 偏 。 “(Lattice 


向 量 乘 ) ”微分 方程 ) 方法) 


图 7-12 算术 密度 ， 计 算 方式 为 用 运行 程序 中 总 的 浮 点 操作 数 
除 以 访问 主 存 总 的 字 节 数 [Wiliams，Patterson ，2008] 。 
一 些 核 心 的 算术 密度 与 问题 规模 成 比例 扩展 ， 如 Dense Matrix， 但 是 也 有 许多 核心 与 问题 规模 无 关 。 对 于 前 
者 ， 弱 比例 缩放 会 导致 不 同 的 结果 ， 因 为 它 对 存储 系统 的 需求 不 是 很 大 。 


7. 10. 1 ”Roofline 模型 


本 节 提 出 的 简单 模型 将 浮 点 性 能 、 算 术 密 度 和 存储 性 能 联系 在 一 个 二 维 图 中 [ Williams 
Patterson，2008 ] 。 峰 值 浮 点 性 能 可 以 在 上 面谈 到 的 硬件 规格 说 明 书 中 找到 。 我 们 这 里 考虑 
的 核心 的 工作 集 不 适合 使 用 片上 缓存 ， 因 此 峰值 存储 器 性 能 可 以 使 用 缓存 之 后 的 存储 器 来 
定义 。 获 得 峰值 存储 性 能 的 一 种 方法 是 使 用 Stream 基准 测试 程序 。( 见 第 5 章 5.2.5 节 的 相 
关 说 明 )。 

图 7-13 给 出 了 针对 一 台 计算 机 的 模型 ， 注 意 不 是 针对 每 个 核心 的 模型 。 纵 轴 Y 表示 浮 点 性 
能 ， 从 0.5 到 64.0 GFLOPs/ 秒 。 横 轴 义 表示 算术 密度 ， 从 1/8 FLOPs/DRAM 字 节 到 16 FLOPs/ 
DRAM 字 节 。 注 意 该 图 采用 log-log 的 比例 。 









64.0 : 

32.0 

et -和 巍 值 浮 点 性 能 图 7-13 ”Roofline 模型 [Williams，Patterson ，2008] 
的 本 例 具有 16 GFLOPS/s 的 峰值 浮 点 性 能 和 16 GB/s 的 峰值 
a > 存储 带宽 ， 该 数据 来 自流 测试 程序 ( 由 于 流 实际 上 是 四 次 测 
9 加 量 ， 图 中 的 线 是 四 次 的 均值 ) 。 左 边 的 彩色 点 垂 线 标识 内 核 
到 二 1 ， 其 计算 密度 为 0.5 FLOPs/byte。 在 Opteron X2 上 ， 受 限 于 
泽 低 于 8 GFLOPS/s 的 存储 器 带宽 。 右 边 的 点 垂 线 标识 内 核 2， 
准 20 a 计算 密度 为 4 FLOPs/byte。 它 只 受 限 于 16 GFLOPS/s 的 计算 。 
所 ei or (该 数据 基于 AMD Opteron X2 (版 本 F) ， 使 用 运行 在 双 sock- 

: : et 系 旨 Hz 变 
.带宽 受 限 ) | : t 系统 中 的 2 GHz 的 双核 ) 。 
IB Mm mn 1 2 4 gi 
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对 给 定 的 核心 ， 我们 可 以 基于 其 算术 密度 在 X 轴 找 到 对 应 点 。 如 果 我 们 在 该 点 画 -- 条 生 直 线 ， 屠 
乞 该 仿 心 在 计算 机 上 的 性 能 一 定 在 该 垂直 线 的 某 个 位 置 上 。 我 们 可 以 画 -- 条 水 平 线 表示 该 计算 机 的 峰 
值 浮 点 性 能 。 显 然 ， 实 际 的 浮 点 性 能 不 会 超过 该 水 平 线 ， 因 为 这 是 一 个 硬 界限 (hardware limit) ， 


我 们 如 何 画 出 峰值 存储 性 能 呢 ? 由 于 和 X 轴 是 FLOPs/ 字 节 ，Y 轴 是 个 GFLOPs/ 秒 ， 所 以 字 节 / 
秒 只 是 图 中 一 条 45° 的 对 角 线 。 因 此 ,我 们 画 出 第 三 条 线 来 表示 对 于 给 定 的 算术 密度 该 计算 机 存 
储 系统 所 能 支持 的 最 大 浮 点 性 能 。 我 们 可 以 用 下 面 的 公式 表示 该 界限 ， 以 便 在 图 7-13 中 画 出 
该 线 : 

可 达到 的 GFLOPs/ 秒 = Min( 峰 值 存 储 器 带宽 x 算术 密度 ,峰值 浮 点 性 能 ) 

水 平 线 和 对 角 线 给 出 了 人 简单 模型 的 名 称 并 标 出 了 对 应 值 。 这 个 像 屋 顶 一 样 的 轮廓 线 设 定 了 
一 个 核心 在 不 同 算术 密度 下 的 性 能 上 界 。 如 果 我 们 认为 算术 密度 是 支撑 屋顶 的 一 个 杆 ， 那 么 它 
要 么 支撑 屋顶 的 平坦 部 分 ,这 表示 性 能 受 计算 限制 ， 它 要 么 支撑 屋顶 的 倾斜 部 分 ， 这 表示 性 能 受 
仓储 器 沉 宽 限制 。 在 图 7-13 中 ， 核 心 2 属于 前 者 ， 而 核心 ] 属于 后 者 。 在 有 了 一 台 计 算 机 的 
Roofline 模型 之 后 ， 你 可 以 重复 利用 它 ， 因 为 它 不 会 受 核心 影响 。 

党 要 注意 的 是 “ 消 点 ”， 它 是 屋顶 平坦 部 分 与 倾斜 部 分 的 交叉 点 ， 这 对 计算 机 来 说 是 一 个 关 
键 氮 。 如 有 果 它 过 于 靠 右 ， 那 么 只 有 极 高 算术 密度 的 核心 才能 获得 最 大 性 能 。 如 果 它 过 于 靠 左 ， 那 
么 几乎 所 有 核心 都 可 以 达到 最 大 性 能 。 对 于 这 两 种 情况 我 们 都 将 会 给 出 相应 实例 。 


7. 10.2 两 代 Opteron 的 比较 


四 核 的 AMD Opteron X4 (Barcelona) 是 两 核 Opteron X2 的 后 续 版 本 。 为 了 简化 主板 设计 ， 它 
们 使 用 了 相同 的 插座 。 因 此 ， 它 们 具有 相同 的 DRAM 通道 ， 也 就 具有 相同 的 峰值 存储 带宽 。 除 
了 将 核心 数量 加 倍 之 外 ，Opteron X4 还 将 每 核 的 峰值 浮 点 性 能 提高 到 原来 的 两 倍 ，Opteron X4 核 
每 时 钟 周期 可 发 射 两 条 浮 点 SSE2 指令 ， 而 Opteron X2 核 最 多 
只 能 发 射 一 条 。 由 于 我 们 比较 的 两 个 系统 具有 接近 的 时 钟 频 
率 一 一 Opteron X2 为 2.2 GHz，Opteron X4 为 2.3 GHz 所 
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Opteron X4 (Barcelona) | 

















以 Opteron X4 的 峰值 浮 点 性 能 是 Opteron X2 的 4 倍 还 多 ， 而 3 
两 者 DRAM 带宽 完全 相同 。Opteron X4 还 有 2 MB 的 三 级 组 3 160 | 
存 ， 而 Opteron X2 没有 。 > 80 | | NN ] 
图 7-14 比较 了 两 个 系统 的 Roofline 模型 。 正 如 我 们 所 有 | Opteron X2 
rr 20 7 


期 望 的 那样 ， 消 点 从 Opteron X2 的 1 移 到 了 Opteron X4 的 . 
5。 央 此 ,为 了 看 到 下 一 代 Opteron 处 理 器 性 能 的 改进 , 核 10 | \ 
心 的 算术 密度 必须 大 于 1， 或 者 核心 的 工作 集 必须 适合 。 05 一 1 2 4 a 


Opteron X4 的 缓存 。 

Roofline 模型 给 出 了 性 能 的 上 界 。 假设 你 的 程序 远 远 低 
于 该 上 界 ， 那 么 你 应 进行 哪些 优化 呢 ? 这 些 优化 的 优先 级 
舌 序 是 什么 ? 

为 了 克服 计算 瓶颈 ， 下 面 的 两 种 优化 可 以 改进 几乎 任 
何 核心 ， 


1) 浮 点 操作 混合 。 对 一 台 计 算 机 而 言 ， 峰 值 浮 点 性 能 


实际 FLOPbyte 比 率 


图 7-14 两 代 Opteron 的 Rocfline 模型 

Opteron X2 的 屋顶 线 与 图 7-11 相同 ， 使 
用 黑色 绘制 ， 而 Opteron X4 的 屋顶 线 使 用 
灰色 绘制 。Opteron X4 更 大 的 消 点 意味 着 
原来 在 Opteron X2 中 是 计算 受 限 的 核心 在 
Opteron X4 中 可 能 是 存储 性 能 受 限 。 


一 般 需 要 几乎 同时 到 达 的 等 量 加 法 和 乘法 。 这 种 均衡 不 仅 是 因为 计算 机 支持 融合 的 乘 加 指令 
( 见 3.5.5 节 的 精 解 ) ， 也 因为 浮 点 单元 具有 相同 数量 的 浮 点 加 法 器 和 浮 点 乘法 器 。 最 佳 性 能 也 


需要 大 部 分 指令 混合 是 浮 点 操作 和 非 整数 指令 。 


2) 提高 指令 级 并 行 并 应 用 SIMD。 对 超标 量 体 系 结构 ， 最 高 性 能 在 每 个 时 钟 周期 取 指 、 执 行 
并 提交 3 ~4 条 指令 时 才能 获得 〈 见 第 4 章 )。 这 里 的 目标 是 从 编译 器 上 改进 代码 来 增加 ILP。- 
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种 方法 是 循环 展开 。 对 x86 体系 结构 而 言 ， 一 个 单一 的 SIMD 指令 可 以 对 一 对 双 精 度 操作 数 进 行 
操作 ， 因 此 它们 应 该 被 尽量 使 用 。 

为 了 克服 存储 瓶 项 ， 可 以 采用 下 面 的 两 种 优化 : 

1) 软件 预 取 指 (software prefetching) 。 最 高 性 能 通常 需要 保持 许多 存储 器 操作 一 直 运 行 ， 这 
使 得 执行 软件 预 取 指 更 加 容易 ， 而 不 用 等 到 计算 需要 该 数据 时 才 进 行 访 存 。 

2) 内 存 关联 (memory affinity) 。 大 多 数 现 在 的 微 处 理 器 都 在 片 内 包含 了 内 存 控制 器 。 
如 果 系 统 中 含有 多 颗 芯 片 ， 这 就 会 使 一 些 地 址 访问 本 地 DRAM， 而 其 他 地 址 需要 通过 芯片 
互 连 访问 对 于 其 他 芯片 是 本 地 的 DRAM。 后 者 会 降低 性 能 。 优 化 方法 是 分 配 数据 后 尽量 让 
线程 操作 属于 同一 存储 器 - 处 理 器 对 上 的 数据 ， 这 样 处 理 器 几乎 不 会 访问 其 他 芯片 上 的 存 
储 如 。 

Roofline 模型 可 以 帮助 决定 选用 哪些 优化 ， 以 及 优化 的 实施 顺序 。 我 们 可 以 认为 这 些 优 化 方 
法 中 的 每 一 个 都 是 适当 屋顶 线 下 面 的 一 层 “ 天 花 板 ”， 也 就 是 说 在 没有 实施 相应 优化 的 情况 下 不 
能 突破 该 层 天 花 板 。 

计算 性 能 屋顶 线 可 以 在 手册 中 找到 ， 而 存储 带宽 屋顶 线 则 可 以 通过 运行 流 基准 测试 程序 获 
得 。 计 算 性 能 天 花 板 ， 如 浮 点 均衡 ， 也 可 来 自 该 计算 机 的 手册 。 存 储 天 花 板 需要 在 每 台 计 算 机 上 
运行 实验 ， 从 而 决定 它们 之 间 的 间隙。 一 个 好 消息 是 这 一 过 程 在 每 台 计算 机 上 只 需 进 行 一 次 ， 只 
要 有 人 完成 了 对 该 计算 机 天 花 板 的 评估 ， 任 何人 都 可 以 将 该 结果 用 于 指导 针对 该 计算 机 优化 的 
先后 次 序 。 

图 7-15 相对 于 图 7-13 中 的 屋顶 线 模型 增加 了 天 花 板 ， 其 中 上 图 给 出 了 计算 天 花 板 ， 下 图 给 
出 了 存储 带宽 天 花 板 。 尽 管 较 高 的 天 花 板 没 有 标记 ， 但 是 其 隐 含 使 用 了 全 部 优化 手段 ， 为 了 突破 
最 高 的 天 花 板 ， 首 先 必须 突破 所 有 下 面 的 天 花 板 。 


AMD Opteron AMD Opteron 
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图 7-15 带 有 天 花 板 的 Roofline 模型 
其 中 左 图 表示 计算 性 能 的 “天 花 板 ”， 其 中 1 表示 浮 点 操作 混合 失衡 情况 下 性 能 为 8 GFLOPs/ 秒 ，2 表示 同 
时 未 使 用 ILP 和 SIMD 下 的 性 能 为 2 GFLOPs/ 秒 。 右 图 表示 存储 带宽 的 天 花 板 ， 其 中 3 表示 没有 软件 预 取 指 时 
的 带宽 为 11 CB/ 秒 ，4 表示 同时 没有 优化 内 存 关联 的 带宽 为 4.8 GB/ 秒 。 


天 花 板 之 间 间 隙 的 厚度 和 下 一 个 更 高 的 限制 表示 优化 之 后 的 收益 。 因 此 ， 图 7-15 建议 优化 2 
和 4。 其 中 2 是 改善 TP， 对 于 改善 该 计算 机 的 计算 有 很 大 益处 ; 4 是 改善 内 存 关联 ， 对 于 改善 该 


计算 机 的 存储 带宽 有 很 大 益处 。 
图 7-16 将 图 7-15 中 的 天 花 板 整合 到 一 张 图 中 。 核 心 的 算术 密度 决定 了 优化 的 区 域 ， 优 化 区 
域 反 过 来 又 给 出 了 哪些 优化 手段 可 以 尝试 。 需 , 


要 注意 的 是 ， 对 大 多 数 算术 密度 ， 计 算 优 化 和 存 
” 储 带 宽 优化 都 是 重 香 的 。 图 7-16 中 有 三 处 不 同 
的 阴影 标记 ， 用 于 区 分 不 同 的 优化 策略 。 例 如 ， 
核心 2 落 在 右边 灰色 梯形 区 域 ， 表 示 只 工作 在 计 
算 优 化 上 。 核 心 1 藩 在 灰色 与 浅 灰 色 平 行 四 边 形 
区 域 ， 表 示 两 种 优化 均 可 尝试 。 而 且 ， 它 建议 从 
优化 2 和 优化 4 开始 。 注 意 到 核心 1 的 垂直 线 低 
于 浮 点 失衡 优化 ， 因 此 优化 1 是 没有 必要 的 。 如 
果 核 心 落 在 左下 角 的 浅 灰 色 三 角形 区 域 ， 则 表 
示 只 需 进行 存储 优化 即 可 。 

到 目前 为 上 ， 我 们 一 直 假 定 算术 密度 是 固 
定 的 ， 但 是 实际 情况 并 非 如 此 。 首 先 ， 有 些 核心 计算 密度 : FLOPs/Byte 
的 算术 密度 会 随 问 题 规模 增长 ， 如 稠密 矩阵 和 。 图 7-16 将 图 7-13 中 两 图 重要 的 oofine 模型 
多 体 问 题 〈 见 图 7-12) 。 事 实 上 ， 这 就 是 程序 员 算术 密度 处 于 右边 灰色 梯形 区 域 的 核心 应 当 着 重 于 计 
处 理 弱 比 例 缩放 比 强 比例 缩放 更 成 功 的 原因 之 ” 算 优化 ， 而 处 于 浅 灰 色 三 角形 区 域 的 核心 应 当 着 重 于 存 
一 。 第 二 ， 缓 存 影响 存储 器 的 访问 次 数 ， 因 此 改 。 两 和 优化 条 光志 太 外 全 二 区 人 了 息 各 坦 形 计 直 的 人 
善 缓存 性 能 的 优化 也 能 改善 算术 密度 。 一 个 例 
子 是 通过 循环 展开 改善 时 间 局 部 性 ， 并 将 使 用 PA 5 全 
相近 地 址 的 语句 分 组 到 一 起 。 许 多 计算 机 提供 “SnID 以 及 学 点 换 作 均衡 等 。 
特殊 的 缓存 指令 ， 可 以 先 将 数据 分 配 到 缓存 中 但 是 先 不 从 存储 器 中 填充 ， 因 为 它 可 能 很 快 被 改 
写 。 这 些 优 化 降低 了 存储 器 流量 ， 因 此 可 以 将 算术 密度 乘 以 一 个 系数 (如 1.5) 向 右 移动 。 这 种 
右 移 会 使 核心 移 到 一 个 不 同 的 优化 区 域 。 

下 一 池 会 使 用 屋顶 线 模型 来 分 析 四 种 最 近 的 多 核 微 处 理 器 运行 两 个 实际 应 用 程序 核心 的 差 
腊 。 上 面 的 这 些 例 子 不 仅 显 示 了 该 模型 如 何 帮助 程序 员 提 高 性 能 ， 而 且 还 可 以 帮助 体系 结构 人 
员 从 哪里 着 手 优 化 硬件 ， 从 而 提高 那些 他 们 认为 重要 的 核心 性 能 。 

精 解 : 天 花 板 是 分 层次 的 ， 最 低 的 天 花 板 是 最 容易 优化 的 。 显 然 ， 程 序 员 可 以 按 任意 顺序 优化 ， 但 是 遵从 
建议 的 顺序 可 以 避免 将 时 间 浪 费 在 因 其 他 约束 而 无 效 的 优化 上 。 和 3C 模型 类 似 ， 只 要 模型 进行 了 抽象 ， 就 会 存 
在 一 些 含糊 不 清 的 地 方 。 例 如 ， 层 顶 线 模型 是 假定 程序 在 所 有 处 理 器 间 负 载 均衡 的 。 

精 解 : 一 种 替换 Stream 基准 测试 程序 的 方法 是 使 用 原始 DRAM 带宽 作为 屋顶 线 。 尽 管 DRAM 带宽 构成 
了 硬件 上 界 ， 但 是 存储 器 的 实际 性 能 往往 与 此 相差 甚 远 ， 因 此 可 用 性 不 高 。 也 就 是 说 ， 没 有 程序 能 够 接近 
该 上 界 。 使 用 Stream 的 不 利 因素 是 非常 仔细 的 编程 有 可 能 获得 高 于 Stream 的 结果 ， 因 此 存储 器 屋顶 线 不 像 
计算 屋顶 线 那样 坚实 。 我 们 坚持 使 用 Stream 是 因为 很 少 有 程序 员 能 够 做 到 这 一 点 。 

精 解 : 上 图 的 两 轴 分 别 是 每 秒 钟 的 浮 点 操作 次 数 和 访问 主 存 的 算术 密度 。 屋 项 线 模型 也 可 用 于 其 他 核 
心 和 计算 机 ， 使 用 不 同 的 性 能 度量 。 

例如 ， 如 果 工作 集 采 用 该 计算 机 的 二 级 缓存 ， 那 么 屋顶 线 模型 中 斜 线 部 分 将 表示 二 级 缓存 带宽 而 不 再 
惩 主 存 带宽 ， 并 且 X 轴 的 算术 密度 将 基于 每 访问 二 级 缓存 一 个 字 节 时 的 FLOPs。 一 级 缓存 的 斜 切线 将 上 移 ， 
背 点 也 很 可 能 左 移 。 

和 党 一 个 例子 ， 如 果 核 心 变 成 排序 ,那么 Y 轴 上 每 指令 的 泽 点 操作 次 数 将 会 变 成 每 秒 钟 完 成 排序 的 记 
录 数 量 ， 算 术 密度 也 会 变 成 每 访问 DRAM 一 -个 字 节 所 操作 的 记录 数量 。 


可 到 达 和 的 GFLOPs/s 
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屋顶 线 模 型 甚至 用 于 IO 密集 型 的 核心 。Y 轴 将 变 成 每 秒 钟 的 VO 操作 次 数 ，X 轴 将 变 成 每 次 VO 操 
作 的 平均 指令 数 ， 屋 顶 线 将 表示 峰值 WO 审 宽 。 
精 解 : 尽管 屋顶 线 模 型 是 针对 多 核 处 理 器 的 ， 但 是 它 也 可 以 用 于 单 处理 串 。 


7. 11 实例 ， 使 用 屋顶 线 模型 评估 四 种 多 核 处 理 器 

由 于 在 这 场 并 行 革新 中 最 好 的 方法 尚 不 明确 ， 所 以 当 我 们 见 到 不 同 多 核 芯 片 都 采用 不 同 设 
计时 也 就 不 足 为 奇 了 。 在 本 节 中 ， 我 们 将 使 用 图 7-11 中 的 两 种 设计 模式 核心 对 4 种 多 核 系 统 进 
行 测试 : 稀 玖 矩阵 和 结构 化 网 格 。( 本 节 中 的 相关 内 容 出 自 【 Williams 、Oliker 等 ，2007 ] ，[ Wil- 
liams 、Carter 等 ，2008 ] ，[ Williams 和 Patterson ，2008 | ,) 


7.11.1 4 个 多 核 系统 


图 7-17 给 出 4 个 系统 的 基本 组 成 ， 图 7-18 给 出 了 本 节 实 例 的 关键 特性 。 这 些 系统 都 是 双 插 
槽 的 。 图 7-19 给 出 每 个 系统 的 屋顶 线 模型 。 
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图 7-17 四 种 最 近 的 多 处 理 器 ， 每 个 使 用 双 插 模 
a) JIntel Xeon e5345 (Clovertown); b) AMD Upteron X4 2356 (Barcelona ) ; 
c) Sun UltraSPARC T2 5140 (Niagara 2) ; d) IBM Cell QS20 


有 一 个 独立 的 北桥 芯片 ， 而 其 他 没有 。 


Intel Xeon e5345 (Clover- 667 MHz 
| se | 

AMD Opteron X4 2356 
a 

Sun UltraSPARC T2 5140 pe pe 22 ”|2x21.3 ( 读 ) | 667 MHz 

( Niagara 2 ) 2x10.6 ( 写 ) | FBDIMM 


7-18 四 种 最 近 多 核 处 理 器 的 关键 特性 
尽管 Xeon e5345 和 Opteron X4 使 用 相同 速度 的 DRAMs， 但 是 Stream 基准 测试 程序 显示 出 Opteron X4 具有 较 高 
的 实际 存储 带宽 ， 因 为 Xeon e5345 的 前 端 总 线 不 是 很 有 效 。 
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7-19 7-15 中 多 核 多 处 理 器 的 Roofiine 模型 
a) Intel Xeon e5345 (Clovertown); b) AMD Opteron X4 2356 (Barcelona); 
ce) Sun UltraSPARC T2 5140 (Niagara 2); d) IBM Cell 0S20 

最 上 面 与 图 7-13 相同 。 从 左上 和 角 开 始 ， 计 算 机 依次 是 : (a) Intel Xeon e5345 (Clovertown),(b) AMD Opter- 
on X4 2356 (Barcelona), (c) Sun UltraSPARC T2 5140 (Niagara 2) 和 “(dd) IBM Cell QS20。 注 意 ， 这 四 个 微 处 
理 器 的 准点 与 x 轴 的 交叉 点 的 计算 密度 分 别 为 6、4、1/3 利 3/4。 点 重 线 是 针对 本 部 分 的 两 个 内 核 的 ， 星 标 表示 
这 些 核 进 行 所 有 的 优化 之 后 所 获得 的 性 能 。SpMYV 用 左 侧 的 一 对 点 垂 线 表示 。 它 之 所 以 有 两 条 线 是 因为 在 寄存 
器 阻塞 优化 的 基础 上 ， 它 的 算术 密度 可 从 0. 166 提升 到 0.255。LBHMD 是 右边 的 点 垂 线 。 它 在 (a) 和 (b) 中 
有 一 对 线 ， 是 因为 当 处 理 器 可 以 向 整个 块 中 号 和 新 数据 时 ，cache 优化 会 针对 缺失 而 跳 过 填充 cache 块 。 这 种 优 
化 使 算术 密度 从 0. 70 增加 到 1. 07 。( ec) 中 是 一 条 单线 ， 因 为 UltraSPARC T2 不 提供 cache 优化 。(d) 中 是 一 条 
位 于 1.07 的 单线 ， 因 为 Cell 的 局 部 存储 由 DMA 装 入 ， 因 而 程序 不 用 像 cache 那样 取 进 不 必要 的 数据 。 


Intel Xeon e5345 (代号 Clovertown ) 每 个 搬 权 包含 四 个 核 ， 通 过 封装 可 将 两 个 核 集 成 到 一 个 择 
槽 上 。 这 两 个 芯片 共享 一 个 前 端 总 线 ， 并 连接 到 一 个 分 离 的 北桥 芯片 组 上 ( 见 第 6 章 ) 。 该 北桥 芯 
片 组 支持 两 个 前 端 总 线 ， 因 此 支持 两 个 播 槽 。 它 包含 支持 667 MHz 的 全 缓冲 DRAM DIMM (FB- 
DIMM) 内 存 控制 器 。 该 双 插 楼 系统 使 用 2. 33 GHz 的 处 理 器 时 钟 频率 ， 在 四 个 系统 中 具有 最 高 的 峰 
值 性 能 : 75 GFLOPS。 然 而 ， 从 图 7-19 中 的 屋顶 线 模型 可 以 看 到 ， 这 只 能 在 算术 密度 大 于 等 于 8 时 
才能 达到 。 其 原因 是 使 用 了 双 前 端 总 线 进行 两 者 的 接口 ， 这 只 能 为 程序 提供 较 低 的 存储 带宽 。 

AMD Opteron X4 2356 ( Barcelona) 每 蜂 芯 片 包含 四 个 核 ， 并 且 每 个 插 权 都 有 一 颗 芯 片 。 每 
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v 晒 芯 片 都 有 一 个 板 上 的 内 存 控制 器 以 及 一 条 独立 的 667 MHz DDR2 DRAM 通道 。 两 个 插 构 通过 专 
用 的 Hypertransport 链 路 进行 通信 ， 这 使 得 构建 “无 颖 ”连接 多 芯片 系统 成 为 可 能 。 该 双 插 模 系 
统 采用 2. 30 GHz 的 处 理 器 时 钟 频率 ， 峰 值 性 能 大 约 为 74 GFLOPS。 图 7-19 显示 准点 相对 Intel 
Xeon e5345 (Clovertown) 偏 左 ， 对 应 的 算术 密度 大 约 为 5 FLOPS/ 字 节 。 

Sun UltraSPARC T2 5140 (代号 Niagara 2) 与 这 两 个 x86 微 体 系 结构 大 不 相同 。 它 在 每 颗 芯 
片上 使 用 八 个 相对 简单 的 核 ， 以 及 低 得 多 的 时 钟 频率 。 它 同时 提供 每 核 八 线程 的 细 粒 度 多 线程 。 
一 颗 必 片 包含 四 个 内 存 控 制 妖 ， 可 以 驱动 四 组 667 MHz 的 FBDIMM。 为 了 将 两 颗 UltraSPARC T2 
必 片 连接 在 一 起 ， 把 四 个 内 存 通道 中 的 两 个 连接 到 一 起 ， 其 他 两 个 留 给 每 颗 芯片 自己 使 用 。 该 双 
揪 构 系统 的 峰值 性 能 大 约 为 22GFLOPS ， 而 肴 点 低 得 令 人 吃惊 ， 对 应 的 算术 密度 只 有 1/3 FLOPS/ 
字 节 。 

IBM Cell QS20 与 上 面 三 种 也 不 相同 。 它 是 一 个 异 构 设 计 ， 内 含 一 个 相对 简单 的 PowerPC 核 
和 八 个 支持 SIMD 类 型 指令 的 SPE (Synergistic Processing Element) 。 每 个 SPE 也 有 自己 的 局 部 存 
储 髓 而 不 是 缓存 。 一 个 SPE 必须 将 数据 从 主 存 转移 到 自己 的 局 部 存储 器 才能 对 其 操作 ， 而 在 操 
作 完 成 之 后 再 将 数据 写 回 主 存 。 它 使 用 DMA ， 与 软件 预 取 指 有 些 类 似 。 两 个 插 槽 通过 多 芯片 通 
信和 的 专用 链 路 进行 连接 。 该 系统 的 时 钟 频率 是 四 个 多 核 中 最 高 的 ， 达 到 了 3.2 GHz， 而 且 它 使 用 
XDR DRAM 必 片 ， 这 一 般 用 在 游戏 机 中 。XDR DRAM 的 特点 是 带宽 高 但 是 容量 低 。 考 虑 到 Cell 
的 主要 应 用 是 图 形 处 理 ， 因 此 它 的 单 精度 性 能 要 远 远 超 过 双 精 度 性 能 。 该 双 插 槽 系统 中 SPE 的 
峰值 双 精 度 性 能 是 29 GFLOPS， 疹 点 的 算术 密度 是 0.75 FLOPS/ 字 节 。 

两 种 x86 体系 结构 所 提供 的 核 数 远 远 小 于 IBM 和 Sun 公司 在 2008 年 早期 所 能 提供 的 核 数 ， 
这 就 是 目前 他 们 的 现状 。 每 次 技术 更 新 换代 会 使 核 的 数量 加 倍 ， 所 以 一 件 非常 有 趣 的 事情 就 是 
不 却 道 是 x86 体系 结构 会 缩短 两 者 核 数 的 差距 ， 还 是 IBM 和 Sun 会 继续 加 入 更 多 的 核 ， 尽 管 它们 
专注 的 领域 一 个 是 桌面 计算 机 ， 一 个 是 服务 器 。 

需要 注意 的 是 ， 这 些 系 统 采用 了 完全 不 同 的 存储 器 系统 。Xeon e5345 使 用 了 常规 的 私有 一 级 
缓存 ， 二 级 缓存 在 一 对 处 理 器 之 间 共 享 。 然后 通过 两 条 总 线 使 用 片 外 内 存 控制 器 连接 到 常规 内 
存 上 。 相 比 之 下 ，Opteron X4 每 颗 芯 片 都 有 独立 的 内 存 控 制 器 和 内 存 ， 并 且 每 个 核 都 有 私有 的 一 
级 和 二 级 缓存 。UltraSPARC T2 每 颗 芯 片 都 有 片上 内 存 控制 器 和 四 个 独立 的 DRAM 通道 ， 所 有 处 
理 硕 核 共享 二 级 缓存 ， 并 且 二 级 缓存 分 为 四 组 以 提高 带宽 。 它 在 多 核 设 计 之 上 的 细 粒 度 多 线程 
使 得 它 可 以 保持 许多 存储 器 操作 同时 进行 。Cell 是 最 为 激进 的 一 个 设计 。 它 在 每 个 SPE 都 有 局 部 
存储 器 ， 并 且 使 用 DMA 在 DRAM 与 局 部 存储 器 之 间 传 输 数 据 。 它 通 过 包含 很 多 核 以 及 每 个 核 上 
的 许多 DMA 传输 来 承受 许多 存储 器 操作 同时 进行 。 

下 面 来 看 四 个 多 核 在 两 种 核心 上 的 性 能 对 比 。 


7. 11. 2 ” 稀 朴 和 矩阵 


第 一 个 核心 是 稀 琉 矩阵 计算 的 设计 模式 SpMV (Sparse Matrix- Vector multiply) 。SpMV 在 科学 
计算 、 经 济 学 建 模 和 信息 检索 中 很 常见 。 但 遗憾 的 是 ， 常 规 的 实现 方式 最 多 只 能 发 挥 单 处 理 器 峰 
值 性 能 的 10% 。 不 规则 的 存储 器 访问 是 原因 之 一 ， 例 如 使 用 稀 政和 矩阵 工作 的 核心 就 是 如 此 。 假 
设 需 要 完成 以 下 计算 : 

- y=Axx 
其 中 4 是 一 个 稀疏 矩阵 ，* 和 y 各 是 一 个 稠密 向 量 。 我 们 从 不 同 真 实 应 用 中 选择 了 14 个 稀 朴 矩阵 
对 SpMV 性 能 进行 了 评估 ， 但 是 只 给 出 了 一 个 居中 的 性 能 结果 。 算 术 密度 在 采用 寄存 器 阻塞 优化 
之 前 是 0. 166 ， 在 优化 之 后 是 0. 250 FLOPS/ 字 节 ，。 
首先 将 算法 并 行 化 以 利用 全 部 处 理 器 核 。 假 定 SpMV 的 算术 密度 低 于 图 7-19 中 所 有 四 个 多 
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核 处 理 器 的 脊 点， 那么 大 多 数 优化 都 是 涉及 存储 系统 的 : 
。 预 取 指 : 为 了 挖掘 存储 系统 的 最 大 性 能 ， 软 件 取 指 和 硬件 取 指 都 要 使 用 。 
e 内 存 关 联 : 有 三 个 系统 包含 局 部 存储 器 ， 该 优化 手段 可 以 降低 访问 连接 到 另外 一 个 插 权 
的 DRAM 存储 器 的 次 数 。 
e 压缩 数据 结构 :; 既然 很 可 能 是 存储 带宽 限制 了 性 能 ， 该 优化 手段 使 用 更 小 的 数据 结构 来 
增加 性 能 一 一 例如 ， 将 16 位 索引 改 为 32 位 索引 ， 使 用 空间 更 加 有 效 的 方法 来 表示 稀疏 
和 矩阵 中 每 一 行 的 非 零 值 。 | 
图 7-20 展示 了 在 具有 不 同 核 数 的 四 个 系统 上 ，SpMYV 的 性 能 。( 同样 的 结果 也 出 现在 图 7-19 
中 ,但 使 用 对 数 标尺 时 很 难 进行 性 能 比较 。) 请 注意 ， 尽 管 拥 有 图 7-18 中 的 最 高 峰值 性 能 和 最 高 
单 核 性 能 ，Intel Xeon e5345 的 四 核 交付 性 能 却 是 最 低 的 。Opteron X4 的 性 能 是 其 性 能 的 2 售 。 
Xeon e5345 的 瓶颈 在 于 双 前 端 总 线 。 尽 管 Sun UltraSPARC T2 时 钟 频 率 是 最 低 的 ， 但 其 具有 的 大 
量 的 简单 核 却 胜 过 了 两 个 x86 处 理 器 。IBM Cell 在 四 个 处 理 器 中 性 能 最 高 。 请 注意 ， 除 Xeon 
e5345 外 ， 所 有 处 理 器 都 能 对 核 数 进行 很 好 的 扩展 ， 尽 管 Opteron X4 在 四 核 或 更 多 核 时 ， 扩 展 的 


更 加 缓慢 。 
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图 7-20 SpMV 在 4 种 多 核 上 的 性 能 


7. 11. 3 ”结构 化 网 格 


第 二 个 核心 是 一 个 结构 化 网 格 设计 模式 的 实例 。LBMHD ( Lattice- Boltzmann Magneto- Hydrody- 

namic) 在 计算 流体 动力 学 中 很 常见 ; 它 是 带 有 一 系列 时 间 步 的 结构 化 网 格 。 

每 个 点 都 要 读 写 大 约 75 个 双 精 度 浮 点 数 ， 并 执行 大 约 1300 个 学 点 操作 。 和 SpMV 类 似 ， 
LBMHD 在 单 处 理 器 上 也 只 能 达到 峰值 性 能 的 很 小 一 部 分 ， 因 为 LBMHD 的 数据 结构 复杂 ， 且 存 
储 访问 模式 不 规则 。LBMHD 的 算术 密度 为 0.70 FLOPS/ 字 节 ， 高 于 SpMV 的 0.25。 在 发 生 缓存 
写 缺失 ， 且 程序 将 重 写 整个 缓存 块 时 ， 不 从 存储 器 填充 整个 缓存 块 ， 那么 可 将 算术 密度 提高 到 
1.07。 除 了 UltraSPARC T2 (Niagara 2) 之 外 的 所 有 多 核 都 提供 这 种 缓存 优化 机 制 。 

从 图 7-19 中 可 以 看 到 ， 除 了 UltraSPARC T2 之 外 ，LBMHD 的 算术 密度 已 经 足够 高 了 ， 计 算 
优化 和 存储 带宽 优化 都 可 以 使 用 。UltraSPARC T2 的 痊 点 低 于 LBMHD， 因 此 只 能 使 用 计算 优化 。 

除了 将 代码 并 行 化 以 充分 利用 多 核 之 外 ，LBMHD 还 可 以 选用 下 面 的 优化 : 

。 内 让 关联 : 该 优化 也 是 有 效 的 ， 原 因 同 上 。 

。 ILB 缺失 最 小 化 : 为 了 大 幅度 降低 LBMHD 中 的 TLB 缺失 ， 可 以 使 用 数组 结构 将 一 些 循 

环 组 合 在 一 起 ， 而 不 是 像 常规 方法 那样 使 用 结构 数组 。 


426 .第 7 章 ”多核 、 多 处 理 器 和 集群 


e 循环 展开 和 重 排序 : 为 了 尽 可 能 地 控 气 并行 性 并 提高 缓存 利用 率 ， 需 要 将 循环 展开 ， 并 
将 使 用 邻近 地 址 的 语句 重 排序 到 同一 组 中 。 

。 SIMD 化 : 这 两 种 x86 系统 的 编译 器 不 能 产生 较 好 的 SSE 代码 ， 因 此 必须 使 用 汇编 语言 
工 编写 。 

图 7-21 给 出 了 4 个 系统 在 不 同 核 数 下 的 LBMHD 性 能 。 和 SpMYV 一 样 ，Intel Xeon e5345 的 可 
扩展 性 最 差 。 尽管 Opteron X4 只 有 UltraSPARC T2 核 数 的 一 半 ， 但 是 因为 其 单 核 性 能 超过 T2 的 
人 简单 核 ， 所 以 性 能 依然 超过 TP2。 和 SpMTV 相同 ，IBM Cel 仍 是 最 快 的 系统 。 除 了 Xeon e5345 之 外 
所 有 系统 性 能 都 随 核 数 按 比例 增加 ， 尽 管 T2 和 Cell 的 增长 比 Opteron X4 更 加 平缓 。 
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7-21 4 种 多 核 上 的 LBMHD 性 能 


7. 11.4 生产率 


除了 性 能 之 外 ， 并 行 计算 革新 的 另外 一 个 重要 问题 是 生产 率 , 或 者 说 是 获得 性 能 的 编程 难 
度 。 为 了 比较 ， 图 7-22 给 出 四 个 系统 在 这 两 个 核心 上 的 最 初 性 能 和 最 优 性 能 。 





性 能 | 全 化 后 的 性 能 | 
4 | GFLOPss | 


7-22 4 个 多 核 在 两 个 核心 上 最 初 性 能 与 全 优化 后 性 能 的 对 比 
注意 ，Sun UltraSPARC T2 ( Niagara 2) 的 最 初 性 能 达到 全 优化 后 性 能 的 百分比 很 高 。 这 里 没有 给 出 [BM Cell 
的 基准 性 能 ， 因 为 不 能 将 代码 移植 到 没有 缓存 的 SPES 上 。 如 果 你 在 PowerPC 核 上 运行 该 代码 ， 那 么 性 能 相对 
SPES 将 降低 - -个 数量 级 ， 因 此 我 们 在 本 图 中 忽略 了 这 种 情况 。 


最 容易 的 是 UraSPARC T2， 因 为 它 的 存储 带宽 很 大 ， 核 理解 起 来 也 容易 。 对 于 这 两 个 核心 
在 UltraSPARC T2 中 的 建议 是 应 该 从 编译 器 获得 执行 有 效 的 代码 ， 并 使 用 尽 可 能 多 的 线程 。 对 于 
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其 他 核心 一 个 注意 的 地 方 是 ， 想 当然 地 认为 UltraSPARC T2 的 组 相关 应 与 硬件 线程 数 相 匹配 ， 事 
实 上 并 非 如 此 ( 见 5.11 节 )。UltraSPARC T2 每 个 芯片 支持 64 个 硬件 线程 ， 但 是 二 级 缓存 是 四 路 
.组 相连 的 。 这 种 不 匹配 需要 将 循环 语句 重新 组 织 以 减少 冲突 导致 的 缓存 缺失 。 

Xeon e5346 的 优化 非常 困难 ， 因 为 难以 理解 双 前 端 总 线 的 存储 器 行为 ; 难以 理解 硬件 预 取 是 
如 何 工 作 的 ; 难以 从 编译 器 上 获得 高 质量 的 SIMD 代码 。 它 和 Opteron X4 的 C 代码 在 内 藤 SIMD 
指令 之 后 会 获得 更 高 的 性 能 。 

Opteron X4 可 受益 于 大 和 多数 类 型 的 优化 ， 因 此 相对 于 Xeon e5345 它 需 要 更 多 的 努力 ， 尽 管 它 
的 存储 器 行为 相对 于 Xeon e5345 更 容易 理解 。 

Cell 提出 了 两 类 挑 成 。 首 先 ，SPEF 所 使 用 的 SIMD 指令 是 编译 器 所 难以 处 理 的 ， 因 此 你 需要 帮 
助 编译 器 将 汇编 语言 指令 藤 和 到 C 代码 中 。 第 二 ， 存 储 系统 变 得 更 加 有 趣 。 由 于 每 个 SPF 都 有 使 用 
独立 地 址 空间 的 局 部 存储 器 ， 不 能 简单 地 移植 代码 并 直接 在 SPE 上 运行 。 因 此 ， 在 图 7-22 中 JBM 
Cell 没有 给 出 基准 性 能 ， 并 且 需 要 改变 程序 以 发 射 DMA 命令 在 局 部 存储 器 和 主 存 之 间 来 回 传递 数 
据 。 一 个 好 消息 是 DMA 在 缓存 中 扮演 软件 预 取 指 的 角色 ， 并 且 DMA 易于 使 用 并 获得 高 的 存储 器 性 
能 。Cel 能 够 为 这 些 核 心 提供 存储 带宽 “屋顶 线 近 ”90% 的 性 能 ， 而 其 他 多 核 只 能 提供 到 50% 甚至 
更 少 。 


/7.1< 请 误 与 陷阱 

十 多 年 来 ,一 直 有 人 在 争论 单 处 理 器 的 组 织 形式 已 经 到 达 了 性 能 极限 ， 并 且 性 能 的 真正 改 
进 只 能 通过 将 多 台 计 算 机 互 连 从 而 以 这 种 方式 支持 协同 计算 ……: 事实 证 明 单 处 理 器 的 性 能 一 直 
在 不 断 增 长 vv。 


Cene Amdahl, “ Validity of the single processor approach to achieving large scale computing ca- 





pabilities” , Spring Joint Computer Conference ，1967 

对 并 行 处 理 的 大 量 研究 揭示 了 诸多 廖 误 和 陷阱 。 我 们 在 这 里 讨论 其 中 三 个 。 

请 误 ， Amdahl 定律 不 适用 于 并 行 计 算 机 。 

在 1987 年 ， 一 个 研究 组 织 的 负责 人 宣称 Amdahl 定律 已 经 被 多 处 理 器 所 打破 。 为 了 试图 理解 
这 些 媒体 报道 的 依据 ， 我 们 首先 看 一 下 对 Amdahl 定律 的 相关 引用 [1967，p. 483] 

此 时 可 以 得 出 的 一 个 相当 直观 的 结论 是 : 花费 在 获得 高 并 行 处 理 速 度 上 的 努力 都 是 无 用 的 ， 
除非 顺序 处 理 速 度 提高 的 数量 级 也 与 其 十 分 接近 。 . 

这 句 话 依然 是 正确 的 ; 程序 中 被 忽视 的 部 分 必然 限制 性 能 。 该 定律 的 一 种 解释 可 得 到 下 面 
一 条 引 理 : 每 个 程序 中 都 有 一 部 分 是 顺序 的 ， 因 此 必然 有 一 个 合算 的 处 理 器 数量 上 界 一 一 比如 
这 是 100。 通 过 给 出 使 用 1000 个 处 理 器 也 可 以 达到 线性 增长 ， 证 明 该 引 理 是 错误 的 ， 因 而 得 出 
了 Amdahl 定律 被 打破 的 结论 。 

这 些 研究 人 员 的 方法 是 使 用 弱 比 例 缩 放 : 他 们 不 是 在 相同 的 数据 集 上 将 速度 提高 1000 倍 ， 
而 是 在 可 比较 时 间 内 将 计算 量 提高 1000 倍 。 对 于 他 们 的 算法 ， 程 序 中 顺序 执行 的 比例 是 常数 ， 
与 问题 的 输入 规模 无 关 ， 而 其 余部 分 则 是 完全 并 行 的 一 因此， 使 用 1000 个 处 理 器 时 依然 为 线 
性 增长 。 

Amdahl 定律 显然 也 适用 于 并 行 处 理 器 。 这 项 研究 确实 指出 了 更 快 的 计算 机 主要 用 途 之 是 
完成 更 大 规模 的 问题 ， 但 是 没有 意识 到 当 问 题 规模 增 大 时 算法 是 如 何 按 比 例 改 恋 的 。 

廖 误 : 峰值 性 能 可 代表 实际 性 能 。 

例如 ，7. 11 节 指 出 Intel Xeon e5345 在 四 个 微 处 理 器 中 具有 最 高 的 峰值 性 能 ， 但 是 在 完成 两 
个 核心 计算 时 反而 是 最 慢 的 。 

超级 计算 机 业界 在 市 场 中 使 用 该 度量 方法 ， 并 且 该 雇 误 在 并 行 机 中 更 加 严重 。 市 场 营销 人 
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员 不 仅 在 单 处 理 器 节点 使 用 这 种 几乎 不 可 能 达到 的 峰值 性 能 指标 ， 而 且 还 将 其 乘 以 处 理 器 的 总 
个 数 ， 从 而 假定 并 行 机 可 以 达到 完美 的 加 速度 ! Amdahl 定律 指出 达到 两 种 峰值 是 多 么 困难 ; 将 
两 者 相 乘 就 销 上 加 钳 了 。 屋 顶 线 模型 有 助 于 达到 合乎 比例 的 峰值 性 能 。 

陷阱 : 在 利用 和 优化 多 处 理 器 体系 结构 时 不 开发 软件 。 

在 很 长 的 时 间 里 软件 一 直 落 后 于 并 行 处 理 器 ， 可 能 是 因为 软件 问题 困难 得 多 。 我 们 给 出 一 
个 例子 说 明 这 一 问题 ， 但 是 可 供 选择 的 例子 还 有 很 多 ! 

在 为 单 处 理 器 设计 软件 移植 到 多 处 理 器 环境 时 经 常会 遇 到 这 样 一 个 问题 。 例 如 ，SGI 操作 系统 
最 初 通过 一 个 锁 来 保护 页 表 ,假定 页 分 配 是 不 频繁 的 。 在 单 处 理 器 中 ， 这 不 是 一 个 性 能 问题 。 在 多 
处 理 器 中 ， 对 某 些 程序 会 成 为 一 个 主要 的 性 能 瓶颈 。 考 虑 一 个 程序 在 启动 时 需要 初始 化 大 量 页 的 情 
况 ， 正 如 UNIX 为 静态 分 配 页 所 做 的 操作 那样 。 假 设 该 程序 被 并 行 化 以 便 多 核 进程 分 配 页 。 由 于 页 
的 分 配 需 要 使 用 页 表 ， 而 页 表 在 每 次 使 用 时 必须 锁定 ， 即 使 操作 系统 内 核 支 持 多 线程 ， 如 果 这 些 进 
程 试图 同时 请 求 分 配 页 〈 这 恰好 就 是 我 们 在 初始 化 时 所 预期 的 情况 ) 也 会 因此 串 行 执行 。 

页 表 操 作 的 串 行 化 影响 了 初始 化 时 的 并 行 ， 并 对 整个 并 行 性 能 有 着 很 大 的 影响 。 该 性 能 撼 
须 其 至 在 作业 级 并 行 中 也 存在 。 例 如 ， 假 设 我 们 将 并 行 处 理 程序 分 为 著 干 独立 的 作业 并 分 别 在 
一 个 处 理 融 上 运行 一 个 作业 ， 这 样 在 不 同 作 业 之 间 就 没有 任何 共享 。 (这 恰好 是 一 个 用 户 的 做 
法 ， 因 为 他 合乎 情理 地 相信 性 能 问题 是 由 于 应 用 程序 中 非 预期 的 共享 或 冲突 所 造成 的 。) 不 幸 的 
是 ， 锁 机 制 依然 将 所 有 工作 串 行 化 一 一 因此 说 明 即 使 互相 独立 的 工作 性 能 也 会 很 低 。 

该 陷阱 说 明 当 软件 在 多 处 理 器 上 运行 时 ， 这 种 微妙 但 对 性 能 有 极 大 影响 的 错误 会 显现 出 来 。 
和 其 他 许多 主要 软件 一 样 ， 操 作 系统 的 算法 和 数据 结构 在 多 处 理 器 上 需要 重新 考虑 。 在 页 表 的 
更 小 区 域 加 锁 可 以 有 效 地 避免 这 个 问题 。 


7. 13 ”本章 小 结 
“我 们 正在 将 未 来 产品 的 开发 专注 于 多 核 设计 。 我 们 相信 这 对 工业 界 是 一 个 重要 转折 点 。.…… 这 
不 是 一 场 竞争 。 这 是 计算 的 翻天 履 地 的 变化 ……” 
Paul Otellini ，Intel 总 裁 ，Intel 开发 者 论坛 ，2004 年 
日 从 计算 开始 之 日 ， 人 们 就 梦想 着 通过 简单 的 集成 若干 处 理 器 就 可 以 构建 计算 机 。 然 而 ， 构 
建 并 充分 有 效 利用 并 行 处 理 器 的 进程 是 缓慢 的 。 其 原因 一 方面 是 受 软件 难点 的 限制 ， 另 一 方面 
万 为 了 提高 可 用 性 和 效率 ， 多 处 理 器 的 体系 结构 在 不 断 改 进 。 本 章 中 我 们 讨论 了 许多 软件 方面 
的 挑战 ， 包 括 编写 由 于 Amdahi 定律 可 获得 高 加 速 比 程序 的 难点 。 不 同 并 行 体系 结构 之 间 往 往 存 
在 巨大 差异 ， 所 取得 的 性 能 提升 也 非常 有 限 ， 而 且 过 去 许多 并 行 体系 结构 的 生命 周期 非常 短暂 ， 
这 些 因 素 使 得 软件 更 加 困难 。CD 中 的 7. 14 节 讨 论 了 这 些 多 处 理 器 的 历史 。 
正如 第 1 章 所 述 ， 信 息 技术 业 的 未 来 与 并 行 计算 是 紧密 联系 在 一 起 的 。 像 过 去 一 样 ， 尽 管 有 
很 多 努力 会 失败 ， 但 是 依然 有 很 多 理由 让 我 们 充满 希望 ， 
。 显然 ， 软 件 即 服务 ”的 重要 性 正在 增长 中 ， 并 且 集 群 已 经 被 证 实 为 提供 此 类 服务 的 一 种 
非常 成 功 的 方法 。 通 过 提供 高 层次 的 完 余 ， 包 括 地 理 分 布 的 数据 中 心 ， 此 类 服务 可 以 为 
全 进 界 的 客户 提供 24 x7 x365 的 可 用 性 。 不 难 想象 无 论 是 数据 中 心 的 数量 还 是 每 个 数据 
中 心 内 服务 器 的 数量 都 会 持续 增长 。 组 良 置疑， 此 类 数据 中 心 会 采用 多 核 设计 ， 因 为 数 
据 中 心 已 经 在 应 用 中 使 用 了 数 以 千 计 的 处 理 器 。 
” 在 科学 计算 和 工程 计算 等 领域 中 并 行 处 理 的 使 用 是 非常 普遍 的 。 此 类 应 用 领域 对 计算 能 





© 软件 即 服务 software as a service) ， 软件 不 再 是 安装 运行 在 客户 自己 的 计算 机 上， 而 是 运行 在 远程 计算 机 上 ， 酒 
过 Intemet 来 使 用 ， 上 典型 情况 是 通过 Web 接口 为 容 户 服务 。 然 后 根据 使 用 情况 向 客户 收费 。 
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力 几 乎 充满 无 限 的 渴望 。 而 且 有 很 多 应 用 具有 天 然 的 并 行 性 。 集 群 再 一 次 地 占据 了 此 类 
应 用 领域 。 例 如 ， 根 据 2007 Linpack 报告 ， 集 群 在 500 台 最 快 的 计算 机 中 占据 了 超过 
80 色 的 份额 。 虽 然 如 此 ， 为 这 些 应 用 编程 也 并 非 易 事 ， 如 何 进行 并 行 处 理 器 编程 仍 是 一 
项 挑战 。 此 类 应 用 也 必然 采用 多 核 芯片 ， 因 为 它们 已 经 采用 成 百 上 千 个 处 理 器 。 

。 为 了 获得 更 高 性 能 ， 所 有 的 桌面 和 服务 器 微 处 理 器 制造 商 正 在 构建 多 处 理 器 ,顺序 应 
程序 不 会 像 过 去 一 样 再 有 获取 更 高 性 能 的 捷径 。 因 此 ， 和 要 更 能 的 程序 只 必须 和 
己 的 代码 并 行 化 ， 或 者 编写 全 新 的 并 行 处 理 程序 。 

e 相对 于 多 攻 片 设计 ， 同 一 芯片 上 的 多 处 理 器 可 提供 完全 不 同 的 通信 速率 ， 具 有 更 低 的 延 
迟 和 更 高 的 带宽 。 这 些 改进 可 以 使 得 高 性 能 更 易 获 得 。 

。 在 过 去 ， 微 处 理 器 和 多 处 理 器 在 成 功 上 的 定义 是 不 同 的 。 当 缩放 单 处 理 器 性 能 时 ， 如 果 
单线 程 性 能 随 增 加 硅 面 积 的 开 方 增长 ， 微 处 理 器 设计 者 会 感觉 很 满意 。 也 就 是 说 ， 他 们 
满足 于 性 能 随 资 源 数 量 的 亚 线性 增长 。 多 处 理 器 的 成 功 在 过 去 通常 定义 为 与 处 理 器 数量 
相关 的 线性 加 速 比 函数 ， 并 假定 ”个 处 理 器 的 购买 成 本 或 管理 成 本 是 单一 处 理 器 的 nm 倍 。 
目前 并 行 正在 片上 以 多 核 的 形式 实 更， 我 们 可 以 使 用 已 经 获得 成 功 的 传统 微 处 理 响 来 获 
得 亚 线性 的 性 能 提升 。 

。 运行 时 编译 技术 的 成 功 使 得 软件 更 容易 适应 处 理 器 核 数 量 的 增长 ， 提 供 受 静态 编译 器 限 
制 所 不 能 提供 的 灵活 性 。 

。 与 过 去 不 同 的 是 ， 开 放 源 代码 运动 已 经 成 为 软件 业 的 一 个 关键 部 分 。 这 项 运动 可 以 改善 
工程 解决 方案 ,促进 开发 者 之 间 的 知识 共享 。 它 也 鼓励 创新 ， 在 改变 旧 有 软件 时 欢迎 新 
的 语言 和 软件 产品 。 这 种 开放 式 的 文化 必 将 有 益 于 目前 日 新 月 异 的 时 期 。 

软 春 件 接口 上 的 变革 也 许 是 近 五 十 年 来 所 面临 的 最 大 挑战 。 它 在 全 界 内 外 提供 了 大 量 研究 

和 商业 机 遇 ， 并 且 主 导 多 核 的 公司 并 不 一 定 与 主导 单 处 理 器 的 公司 相同 。 也 许 你 就 会 抓 住 其 中 
的 机 会 ， 成 为 创新 者 中 的 一 员 。 


“7.14 拓展 阅读 
本 节 在 CD 上 主要 给 出 了 近 50 年 来 多 处 理 器 的 发 展 历史 。 


7. 15 练习 题 
由 美国 东北 大 学 的 David Kaeli 提供 ，。 
习题 7.1 
首先 写 一 个 每 周 你 通常 需要 完成 的 日 常 活动 的 列表 。 例如 ， 你 可 能 会 起 床 、 淋 浴 、 穿 衣服 、 吃 早饭 、 
弄 于 头发 、 刷 牙 等 。 确 保 列表 中 至 少 包 含 10 项 活动 。 
7.1.1 [5] <7. 2 > 考虑 哪些 活动 已 经 利用 了 某 种 形式 的 并 行 性 (例如 是 同时 刷 多 颗 牙 齿 还 是 一 次 只 刷 一 颖 


才 ， 是 一 次 只 带 一 本 书 到 学 校 ， 还 是 将 所 有 书 装 到 背包 里 一 次 “并 行 ”携带 ) 。 对 每 个 活动 都 分 析 
是 否 已 经 并 行 工作 ， 如 果 没 有 分 析 其 原因 。 

7.1.2 [5] <7. 半生 (例如 吃 早餐 和 听 新 闻 ) 。 对 每 个 活动 都 分 析 哪 些 活 
动 可 以 与 其 配对 并 发 执行 


7.1.3 [5] <7.2> 对 习题 7.1.2， 可 以 通过 改变 现 澡 有 系统 《例如 淋浴 设备 、 衣 服 、 电 视 机 、 汽 车 等 ) 中 的 
什么 来 让 我 们 并 行 执行 更 多 的 任务 ? 


T1451 <7.2 > 如 果 你 能 尽 可 能 多 地 并 行 执行 任务 ， 估 计 完 成 这 些 任务 可 以 缩短 的 时 间 。 
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习题 7.2 
许多 计算 机 应 用 程序 需要 在 一 组 数据 中 进行 搜索 和 对 数据 进行 排序 。 为 了 减少 这 些 任务 的 执行 时 间 ， 

已 经 实现 了 几 种 高 效 的 搜索 和 排序 算法 。 在 本 练习 中 ， 我 们 将 考虑 如 何 将 这 些 任务 的 并 行 最 大 化 。 

7.2.1 [10] <7.2 > 请 看 下 面 的 二 进 制 搜索 算法 (一 种 经 典 的 分 而 治之 算法 ) ， 该 算法 可 以 在 已 经 排序 的 N 


元 素数 组 A 中 搜索 值 X， 并 返回 匹配 项 的 索引 号 : 


BinarySearch (A[0..N-1],xX)! 
Jow=0 
high=N -1 
while (low <=high}t 
mid= (low+high) /2 
if (A[mid] >X) 
high =mid—1 
else if (A[ mid] <xX) 
low=mid+1 
else 
return mid// 找 到 
} 
return -1// 未 找到 


} 
假设 BinarySearch 运行 在 具有 YY 个 核 的 多 核 处 理 器 上 ， 且 YY 远 远 小 于 N。 请 问 预期 的 加 速 比 是 多 少 ? 


请 画图 表示 。 
7.22 [5] <7.2> 接 下 来 ,假设 Y 与 N 相同 ， 这 会 对 你 前 面 的 结论 有 何 影响 ? 如 果 要 求 你 获得 尽 可 能 高 的 


加 速 比 〈 强 比例 缩放 ) ， 请 问 该 如 何 修改 代码 ? 
习题 7. 3 
请 看 下 面 的 C 代码 片段 : 


for (J =27] <10007 十 十 ) 
D[jj=DLj-1]+D[-~2]， 


与 之 对 应 的 MIPS 代码 如 下 所 示 : 
DADDIU r2,7r2,999 

loop: L.D fi, -16(f£1) 
L.D f2, ~8(f1) 
ADD.D  f3, fi, f2 
S .D £3, 0 (rl) 
DADDIU rl, rl, 8 
BNE rl, r2, loop 


每 种 指令 的 延迟 如 下 (以 周期 为 单位 ) : 


7.3.1 [10] <7.2> 执 行 一 次 循环 内 所 有 的 指令 需要 多 少 周期 ? 

7.3.2 [10] <7.2> 在 循环 中 ， 如 果 后 面 重复 执行 的 指令 会 依赖 于 前 面 指令 产生 的 结果 ， 我 们 会 说 循环 内 
重复 存在 循环 进位 相关 性 (loop-carried dependence) 。 请 分 析 上 面 代码 中 的 循环 进位 相关 性 ， 识 别 其 
中 相关 的 程序 变量 和 汇编 级 寄存 器 。 可 忽略 循环 变量 j 。 

7.3.3 [10] <7.2 > 第 4 章 中 描述 了 循环 展开 。 对 此 循环 进行 展开 ， 并 考虑 将 此 代码 运行 在 一 个 2 节点 的 基 
于 消息 传递 的 分 布 式 存储 器 系统 中 。 假 定 我 们 采用 7.4 六 描述 的 消息 传递 机 制 ， 操 作 send (x，y) 
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可 向 节点 x 发送 值 y， 操 作 receive () 可 等 待 正在 发 送 的 数 。 再 假定 send 操作 的 发 射 需要 1 个 周期 
(也 就 是 说 ， 同 一 节点 的 后 续 指 令 可 在 下 个 周期 执行 )， 而 接收 节点 需要 4 个 周期 接收 。 接 收 指令 会 
阻塞 接收 节点 上 指令 的 执行 ， 一 直 等 到 接收 节点 完成 消息 接收 为 止 。 假 设 循环 会 执行 4 次 ,请 计算 
在 该 基于 消息 传递 的 系统 中 完成 循环 所 需 的 周期 数 。 

7.3.4 [10]<7.2> 互 连 网 络 的 延迟 是 决定 消息 传递 系统 效率 的 重要 因素 之 一 。 请 问 为 了 让 习题 7. 3.3 中 的 
分 布 式 系统 能 获得 任意 加 速 比 ， 互 连 网 络 需要 提供 多 快 的 速度 ? 


习题 7.4 


考虑 下 面 的 归并 排序 算法 〈 另 一 种 经 典 的 分 而 治之 算法 ) 。 归 并 排序 由 John von Neumann 于 1945 年 首 
先 提出 。 其 基本 思想 是 将 含有 m 个 元 素 的 未 排序 序列 x 分 为 两 个 子 序 列 ， 其 中 每 个 序列 长 度 都 大 约 是 原来 
的 一 半 。 然 后 对 每 个 子 序列 重复 类 似 的 动作 ， 直 到 每 个 子 序列 的 长 度 均 为 1。 再 从 长 度 为 1 的 子 序列 开始 ， 
将 两 个 子 序列 “归并 ”为 一 个 排序 的 序列 。 


Mergesort (m) 
Var list left,right,result 
if length (m) <1 
return m 
else 
var middle = length (m) /2 
for each x in mup to middle 
add x to left 
for each x in m after middle 
add x to right 
left =Mergesort (left) 
right =Mergesort (right) 
result =Merge (left,right) 
return result 


下 面 的 代码 实现 归并 步骤; 


Merge {left, right) 
var list result 
while length (left) >0 and length (right) >0 
if first (left)<first(right) 
append first (left)to result 
left =rest (left) 
else 
append first (right)to result 
right = rest (right) 
if length (left} >0 
append rest (left)to result 
if length (right) >0 
append rest (right}to result 
return result 


7.4.1 110] <7.2 > 假设 MergeSort 运行 在 具有 Y 个 核 的 多 核 处 理 器 上 ， 且 Y 远 远 小 于 m( 长 度 ) 。 请 问 预期 
的 加 速 比 是 多 少 ?” 请 画图 表示 。 


“442 110] <7.2> 接 下 来 , 假设 Y 与 m( 长 度 ) 相同 ， 这 会 对 你 前 面 的 结论 有 何 影响 ? 如 果 要 求 你 获得 尽 
可 能 高 的 加 速 比 〈 强 比例 缩放 ) ， 请 问 该 如 何 修改 代码 ? 


习题 7. 5 


假设 需要 你 制作 3 块 蓝莓 蛋糕 。 蛋 糕 的 配料 如 下 : 
1 杯 商 油 ， 软 化 后 再 用 
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! 杯 糖 

4 个 大 鸡蛋 

1 茶匙 香草 精 

0.5 茶匙 盐 

0. 25 茶匙 肉 豆 藻 

1.5 杯 面粉 

1 杯 蓝 稚 

蛋糕 的 制作 流程 如 下 : 

烤箱 预 热 至 160T (325 下 )。 在 烤 盘 上 抹 黄 油 和 一 层 薄 薄 的 面粉 。 

在 一 只 大 硫 中 使 用 搅拌 器 以 中 速 将 奶油 和 糖 混 合 在 一 起 ， 直 到 松 发 。 再 加 鸡蛋 、 香 草 精 、 盐 和 肉 豆 菠 ， 
搅拌 到 完全 混合 。 将 搅拌 器 降 到 低速 ， 一 次 加 入 0.5 标 面粉 ， 搅 拌 到 完全 混合 。 

最 后 慢 慢 加 入 蓝 获 ,将 蛋糕 均匀 地 放 在 烤 盘 中 ， 烘 烤 约 60 分 钟 。 

7.5.1 [$1 <7.2 > 你 的 任务 是 尽 可 能 高 效率 地 完成 3 块 和 蛋糕 。 假 定 只 有 一 个 能 容纳 一 块 蛋 糕 的 烤箱 、 一 个 
大 兢 、 一 个 烤 盘 、 一 个 搅拌 嚣 ， 请 做 出 合理 的 调度 以 尽 可 能 快 地 完成 任务 ， 并 分 析 瓶 至 所 在 。 
7.$S.2 [5] <7.2 > 假设 你 现在 有 3 个 态 ，3 个 蛋糕 盘子 和 3 个 搅拌 器 。 你 拥有 这 些 增加 的 资源 后 ， 现 在 的 

工序 加快 了 多 少 ? 
7.5.3 [5] <7.2 > 假设 你 现在 有 两 个 朋友 ， 可 帮 你 就 饪 ， 并且 你 有 一 个 可 容纳 3 个 蛋糕 的 大 烤箱 。 这 些 将 
对 习题 7. 5. 1 中 的 计划 有 何 改变 ? 
7.5.4 [5] <7.2> 将 制作 蛋糕 与 并 行 计 算 机 中 的 仁 环 迭代 进行 类 比 。 分 析 制 作 蛋 糕 的 循环 中 存在 的 数据 级 
并 行 和 任务 级 并 行 。 
习题 7.6 
矩阵 乘 在 大 量 应 用 中 都 扮演 重要 角色 。 两 个 矩阵 可 以 相 乘 的 条 件 是 第 一 个 矩阵 的 列 数 和 第 二 个 矩阵 的 
行 数 相同 。 
假设 我 们 有 一 个 m xn 的 矩阵 4， 和 欲 与 一 个 n xp 的 矩阵 B 相 乘 。 乘 法 结果 为 -个 中 xp 的 矩阵 4B。 如 
果 令 C=A4B，c; 代 表 在 位 置 (i, j) 处 C 的 值 ， 则 





RnR 
Ci 一 ai = GilO + Ci .202 ; + + a nb 
r=1 


其 中 1<i<m 且 1<j<p。 现 在 我 们 考虑 是 否 可 以 将 C 的 计算 并 行 化 。 假 设 和 矩阵 在 存储 器 中 的 存放 顺序 为 ， 


TT 


21.1，02.1， 03 04,1. 


7.6.1 :19]<7.3> 假 设 我 们 分 别 在 单 核 /四 核 共享 存储 器 的 系统 计算 C， 请 问 四 核 相对 于 单 核 的 预期 加 速 
比 是 多 少 ? 可 忽 路 存储 器 相关 的 问题 。 

7.6.2 [10] <7. 3 > 如果 对 忆 的 更 新 会 导致 cache 缺失 (例如 更 新 一 行 中 连续 的 元 素 时 可 能 引起 伪 共 享 ) 
重新 计算 习题 7.6.1 中 的 问题 。 

7.6.3 [10] <7.3 > 有 什么 办 法 消除 可 能 出 现 的 伪 共 享 问题 ? 


习题 7. 7 


下 面 的 两 个 程序 网 时 运行 在 一 个 包含 4 个 处 理 器 的 SMP (对 称 多 核 处 理 器 ) 中。 假设 在 开始 
前 ，x 和 y 的 初 值 均 为 0。 
核 1: x=2; 

核 2， y=2， 

核 3: W=X+yY+1} 

核 4: z=x+y; 


7.7.1 [101 <7.3 >w、x、y、z 所 有 可 能 的 结果 分 别 是 什么 ”对 每 种 可 能 的 情况 ， 通 过 分 析 指令 的 交错 情 Se 


运行 之 
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况 ， 解 释 其 产生 的 原因 。 
7.7.2 [5] <7.3 > 采用 什么 措施 能 让 执行 变 成 更 有 确定 性 ， 以 便 只 产生 一 种 结果 。 


习题 7.8 
在 CC-NUMA (cache-coherent nonuniform-memory access) 共享 存储 器 系统 中 ，CPU 和 物理 内 存 被 划分 
到 不 同 计算 节点 上 。 每 个 CPU 有 自己 的 局 部 cache。 为 了 维护 存储 -一致 性 ， 我 们 可 为 每 个 cache 块 增加 状态 
位 ， 或 者 引 和 人 存储 目录 。 基 于 存储 目录 ， 每 个 节点 使 用 一 个 专用 硬件 表 来 管理 每 个 存储 块 的 状态 。 目 录 的 
大 小 是 与 CC-NUMA 共享 空间 大 小 相关 的 函数 。 为 节点 中 本 地 存储 器 的 每 个 块 提供 一 个 人 口 ， 如 果 将 一 致 
性 信息 存储 在 cache 中 ， 应 当 将 其 存储 在 每 个 系统 的 每 个 cache 中 (也 就 是 说 ， 存 储 空 间 的 数量 是 所 有 
cache 中 可 用 cache 块 数量 的 函数 )。 
在 下 面 的 问题 中 ,假定 所 有 节点 具有 相同 数量 的 CPU 和 相同 数量 的 存储 器 (也 就 是 说 ，CPU 和 存储 器 
在 CC-NUMA 机 器 中 各 个 节点 之 间 平 均 分 配 )。 
7.8.1 [15] <7.3 > 假定 在 CC-NUMA 系统 中 , P 个 CPU 分 布 在 T 个 节点 上 ， 每 个 CPU 有 C 个 存储 块 ， 每 
个 cache 块 上 维护 1 字 节 的 一 致 性 信息 。 请 问 为 了 维持 一 致 性 ， 系 统 中 一 个 节点 的 cache 中 需要 保存 
多 少 存储 器 内 容 ? 写 出 相应 的 计算 公式 。 公 式 中 不 用 考虑 数据 存储 时 实际 的 空间 占用 大 小 ， 只 需 考 
虑 存储 一 致 性 信号 所 需要 的 空间 即 可 。 
7.8.2 [15] <7.3 > 假定 CC-NUMA 系统 总 的 存储 块 为 S， 总 的 节点 数 为 7。 如 果 每 个 目录 项 都 为 每 个 CPU 
保持 1 个 字 节 的 信息 ， 请 给 出 可 计算 每 个 目录 中 需要 多 少 存储 空间 的 公式 。 


习题 7.9 


在 习题 7. 8 描述 的 CC- NUMA 系统 中 ,假定 节点 数量 为 4， 每 个 节点 只 有 1 个 CPU 《每 个 CPU 有 自己 
的 一 级 数据 cache 和 二 级 数据 cache) 。 一 层 数据 cache 是 写 直达 的 ， 而 二 级 数据 cache 是 写 回 的 。 假 定 系统 
当前 的 工作 负荷 是 让 每 个 CPU 写 入 存储 器 的 某 地 址 ， 其 他 CPU 都 读 取 所 写 人 的 数据 。 还 假定 写 人 的 地 址 在 
开始 时 仅 存 储 在 存储 器 中 而 不 在 任何 一 个 局 部 cache 中 ， 在 写 之 后 更 新 的 块 只 存在 于 执行 写 操作 的 处 理 器 
的 一 级 和 二 级 cache 中 。 

7 9 工 [10]<7.3> 对 使 用 基于 cache 的 块 状态 来 维护 一 致 性 的 系统 ， 请 描述 以 下 情况 下 节点 之 间 的 通信 情 
况 : 某 个 节点 对 一 个 地 址 进行 写 操作 时 ; 其 他 三 个 节点 读 取 该 地 址 的 数据 之 后 。 

7.9.2 [10] <7.3 > 对 基于 目录 的 一 致 性 机 制 ， 重 新 回答 习题 7.9. 1 中 的 问题 。 

7.9.3 [20] <7.3 > 假定 每 个 CPU 均 为 四 核 处 理 器 ， 每 个 核 都 有 一 级 数据 cache， 四 核 共 享 一 级 数据 cache、。 
一 个 核 执行 该 写 操作 ， 其 他 15 个 核 执行 读 操 作 。 在 这 种 情况 下 重新 回答 习题 7. 9. ! 和 习题 7.9.2 中 
的 问题 。 

7.9.4 [10] <7.3 > 在 习题 7.9.3 的 基础 上 上， 假定 每 个 核对 同一 cache 匡 中 的 两 个 不 同 字 节 进行 窟 操作 ， 请 
问 这 对 总 线 上 的 通信 有 何 影响 ? 


习题 7. 10 


在 CC-NUMA 系统 中 ， 对 非 局 部 存储 器 的 访 间 开销 限制 了 多 处 理 的 效率 。 下 表 给 出 了 访问 局 部 存储 和 
非 局 部 存储 中 数据 的 开销 ， 以 及 我 们 的 应 用 程序 中 局 部 存储 访问 所 占 的 百分比 。 


局 部 存 取 (周期 《|  ” 非 局 部 存 取 (周期) 局 部 存 取 所 占 百分比 


» | m0 | 50 


请 回答 下 面 的 问题 。 假 定 存储 访问 在 应 用 程序 中 是 均匀 分 布 的 ， 从 而 我 们 在 进行 存储 访问 时 继续 进行 
计算 〈 不 存在 真相 关 ) 。 还 假定 在 任何 一 个 周期 内 仅 执行 一 个 存储 器 操作 。 请 说 明 本 地 和 非 本 地 存储 器 操 
作 排 序 的 所 有 假设 。 

7. 10.1 [10] <7.3 > 如果 平均 每 隔 75 个 周期 访问 一 次 存储 器 ， 请 问 对 应 用 程序 的 影响 如 何 ? 


7. 10.2 [101] <7.3 > 如 果 平 均 每 隔 50 个 周期 访问 一 次 存储 器 ， 请 问 对 应 用 程序 的 影响 如 何 ? 
7. 10.3 [10] <7.3 > 如 果 平 均 每 隔 100 个 周期 访问 一 次 存储 器 ， 请 问 对 应 用 程序 的 影响 如 何 ? 


习题 7. 11 


哲学 家 就 餐 问 题 是 一 个 经 典 的 同步 和 并 发 问题 。 该 问题 假设 就 座 于 一 个 贺 桌 周围 的 哲学 家 们 可 以 做 两 
件 事 之 一 : 吃饭 或 思考 。 当 他 们 吃饭 时 ， 他 们 不 能 思考 ， 反 之 亦 然 。 在 圆 嘛 中 心 有 一 碗 通 心 粉 。 每 两 个 哲 
学 家 之 间 有 一 只 叉子 ， 这 样 每 个 哲学 家 左面 有 一 把 叉子 ， 右 面 也 有 一 把 叉子 。 按 照 吃 通 心 粉 的 方式 ， 哲 学 
家 需要 两 把 叉子 才能 吃 通 心 粉 ， 而 且 只 能 使 用 紧 挨 着 他 左右 的 两 把 叉子 。 哲 学 家 不 能 和 其 他 人 说 话 。 
7.11,1 [10] <7.4 > 请 描述 没有 任何 哲学 家 可 以 吃 通 心 粉 的 情景 。 什 么 样 的 事件 序列 会 导致 该 问题 发 生 ? 
7.11.2 [10] <7.4 > 如何 通 过 引入 优先 级 的 概念 来 解决 这 一 问题 ? 这 样 可 以 对 所 有 哲学 家 公平 对 待 吗 ? 请 
解释 原因 。 
现在 假定 我 们 增加 一 个 服务 员 负 责 为 哲学 家 们 分 配 叉 子 。 只 有 在 服务 员 允 许 之 下 他 们 才 可 以 拿 起 叉 
子 。 服 务 员 也 知道 所 有 叉子 的 状态 。 而 且 我 们 要 求 所 有 哲学 家 总 是 先 请 求 拿 起 左边 的 叉子 再 请 求 拿 
起 右边 的 叉子 ， 这 样 可 以 避免 死 锁 。 
7. 11.3 [10] <7.4 > 对 服务 员 请 求 的 实现 ， 可 以 将 请 求 放 人 一 个 队列 ， 也 可 以 让 请 求 周 期 性 地 重 试 。 采 用 
队列 方式 ,请 求 可 以 按 收 到 的 顺序 依次 处 理 。 使 用 队列 的 问题 是 即使 请 求 排 在 队列 的 最 前 面 ， 我 们 
也 不 能 保证 总 是 为 其 提供 服务 ， 因 为 可 能 缺乏 所 需 的 资源 。 试 想 使 用 1 个 队列 为 $ 个 哲学 家 服务 的 
情景 ， 即 使 有 的 哲学 家 两 把 叉子 都 可 用 但 仍然 不 能 为 其 服务 〈 因 为 他 的 请 求 排 在 队列 的 后 部 ) 。 
7.11.4 [10] <7.4 > 如 果 我 们 让 请 求 周期 性 地 重 试 直到 资源 变 为 可 用 ， 这 样 是 否 就 解决 了 习题 7. 11.3 中 的 
问题 ? 请 给 出 原因 。 


习题 7. 12 


请 看 下 面 的 3 种 CPU 结构 : 

CPU SS; 一 个 双核 超标 量 微 处 理 器 ， 支 持 在 两 个 功能 单元 上 的 乱 序 发 射 。 每 个 核 只 能 运行 单一 线程 。 

CPU MT: 一 个 细 粒 度 的 多 线程 处 理 器 ， 支 持 来 自 两 个 线程 中 指令 的 并 发 执行 (也 就 是 说 有 两 个 功能 单 
元 )， 尽 管 每 个 周期 只 能 从 一 个 线程 发 射 一 条 指令 。 

CPU SMT: SMT 指令 支持 指令 来 自 两 个 线程 的 指令 并 发 执行 (也 就 是 说 有 两 个 功能 单元 ) ， 并 县 发 身 
的 指令 可 来 自任 一 线程 或 者 两 个 线程 。 
假定 我 们 在 这 些 CPU 上 运行 线程 X 和 线程 Y， 具 体操 作 如 下 : 


线程 线程 了 
Al: 需 两 个 周期 执行 BL: 无 相关 性 
A2; 需要 Al 的 结果 B2: 与 B1 使 用 的 一 个 功能 单元 冲突 
A3: 与 A2 使 用 的 一 个 功能 单元 冲突 8B3 : 无 相关 性 
A4: 需要 A2 的 结果 B4; 需要 B2 的 结果 


除非 特别 标记 或 者 过 到 相关 阻塞 ， 假 定 所 有 的 指令 都 是 单 周 期 执行 。 

7.12.1 [10] <7.5 > 如 果 使 用 一 个 SS CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 相关 阻塞 浪费 了 多 少 发 
射 楷 ? 

7.12.2 【10] <7.5 > 如 果 使 用 一 个 MT CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 相关 阻塞 浪费 了 多 少 发 
射 醒 ? 

7.12,3 [10] <7.5> 如 果 使 用 一 个 SMT CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 相关 阻塞 浪费 了 多 少 发 
射 槽 ? 

习题 7. 13 


虚拟 化 软件 正在 用 于 降低 管理 高 性 能 服务 器 的 成 本 。 包 括 VMWare、Microsoft 和 IBM 公司 在 内 的 很 多 
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公司 正在 开发 一 系列 的 虚拟 化 产品 。 第 5 章 中 介绍 的 管理 程序 层 (hypervisor layer) 位 于 硬件 和 操作 系统 之 
间 ， 使 得 多 个 操作 系统 可 以 共享 同一 物理 人 硬件。 管理 程序 层 负 责 分 配 CPU 和 存储 器 资源 ， 同 时 处 理 原本 由 
操作 系统 完成 的 服务 (如 V0)。 
虚拟 化 为 宿主 操作 系统 和 应 用 软件 提供 了 底层 硬件 的 一 个 抽象 层 ， 使 得 若干 操作 系统 可 并 行 运 行 在 共 
享 的 CPU 和 存储 器 上 。 我 们 需要 重新 考虑 未 来 如 何 设 计 多 核 和 多 处 理 器 系统 来 对 此 进行 支持 。 
7.13.1 (30] <7.5 > 选择 市 场 上 的 两 种 管理 程序 ， 比 较 它 们 虚拟 化 和 管理 底层 硬件 (CPU 和 存储 器 ) 的 
方式 。 
7.13.2 [15]<7.5 > 为 了 更 好 地 满足 未 来 多 核 CPU 平台 的 资源 需求 ， 可 采取 哪些 措施 ? 例如， 多 线程 技术 
是 否 可 以 减轻 计算 资源 间 的 竞争 ? 


习题 7. 14 


我 们 将 讨论 如 何 高 效 地 执行 下 面 的 代码 。 假 设 我 们 有 两 种 不 同 的 机 器 ， 一 种 是 MIMD， 另 一 种 是 
SIMD 。 
for (i =07<200071++) 
for {jj =073 <3000;] ++) 
Xx array[ i][j] =Y array[j][i] +200; 
7.14.1 [10] <7.6 > 对 一 个 包含 4 个 CPU 的 MIMD 机 器 ， 请 给 出 每 个 CPU 上 执行 的 MIPS 指令 序列 。 此 
MIMD 机 器 的 加 速 比 是 多 少 ? 
7.14.2 [20] <7.6 > 对 一 个 宽度 为 8 的 SIMD 机 器 (也 就 是 说 包含 8 个 并 行 的 SIMD 功能 单元 ) ， 使 用 你 自 
己 的 对 MIPS 的 SIMD 扩展 编写 一 个 执行 该 循环 的 汇编 程序 ， 并 比较 SIMD 和 MIMD 上 执行 指令 的 
数量 。 


习题 7. 15 


MISD 机 器 的 一 个 例子 是 脉动 阵列 (systolic array) 。 它 是 一 个 由 数据 处 理 单元 构成 的 流水 线 网 络 或 波 阵 
面 。 这 些 单元 都 不 需要 程序 计数 器 ， 因 为 执行 是 通过 数据 到 达 触 发 的 。 时 钟 脉动 阵列 以 与 每 个 处 理 器 相 
“ 锁 步 ”的 方式 进行 计算 ， 而 这 些 处 理 器 承担 了 交替 的 计算 和 通讯 。 
7.15.1 [10] <7.6> 分 析 脉 动 阵列 的 各 种 实现 机 制 〈 可 以 在 互联 网 或 出 版 物 中 查找 相关 资料 ) ， 然 后 使 用 
MISD 模型 对 习题 7. 14 中 的 循环 进行 编程 ， 并 对 遇 到 的 问题 进行 讨论 。 
7.15.2 [10] <7.6> 应 用 数据 级 并 行 中 的 各 种 术语 ， 分 析 MISD 和 SIMD 之 间 的 相似 点 和 不 同 点 。 


习题 7. 16 


假定 我 们 要 执行 本 章 讲述 NVIDIA 8800 GTX GPU 时 提 到 的 DAXP 循环 。 在 这 一 问题 中 ， 我 们 假定 所 有 
算术 操作 是 单 精 度 浮 点 数 运算 〈 因 此 我 们 将 其 重新 命名 为 SAXP) 。 假定 指令 的 执行 周期 数 如 下 所 示 。 


| | ; 


7.16.1 [20] <7.7 > 请 问 在 一 个 八 核 处 理 器 中 如 何 构建 warp 来 完成 SAXP 循环 ? 
习题 7. 17 


从 www.nvidia.com/ object/cuda_ get.html 下 载 CUDA Toolkit 和 SDK。 注意 使 用 代码 的 emurelease (Emula- 
tion Mode) 版 本 (此 版 本 可 在 没有 NVIDIA 硬件 的 情况 下 运行 ) 。 编 译 SDK 中 提供 的 示例 程序 ， 并 确认 它 
们 运行 在 仿真 器 上 。 
7.17.1 [90] <7.7> 以 SDK 的 示例 程序 为 起 点 ， 编写 一 个 完成 如 下 向 量 操作 的 CUDA 程序 : 
1) a -8 (向 量 减法 ) 
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2) a ' b (向 量 点 积 ) 
周 量 a = La ,Go ,""* ,a | 和 6b = [0 的 点 积 定义 如 下 : 


n 
aa" b 》 aib 一 aib 十 a,b, 十 "…， 十 GD 


运行 编写 的 程序 并 验证 结果 是 否 正确 。 
7. 17.2 [90] <7.7 > 如 果 你 有 可 用 的 GPU 硬件 ， 请 完成 对 程序 的 性 能 分 析 ， 并 查看 在 向 量 大 小 不 同 的 情况 


下 GPU 的 计算 时 间 ， 并 解释 其 中 的 原因 。 


习题 7. 18 
AMD 最 近 宣布 将 把 GPU 与 x86 核 集成 到 一 个 封装 中 ， 尽 管 两 者 的 时 钟 不 同 。 这 是 我 们 能 在 不 远 的 将 来 

能 够 看 到 的 一 种 异 构 多 处 理 器 系统 商业 化 产品 。 设 计 的 关键 之 一 是 如 何 支持 CPU 和 GPU 之 间 的 高 速 数据 

通信 。 目 前 的 计划 是 采用 多 个 〈 至 少 16 个 ) PCI Express 通道 来 实现 高 速 通信 。Intel 也 使 用 Larrabee 芯片 进 

行 了 类 似 的 研究 ， 通 信 计 划 采 用 QuickPath 互 连 技术 。 

7.18.1 [25] <7.7 > 比较 这 两 种 互 连 技术 的 带宽 和 延迟 。 


习题 7. 19 


参照 图 7-9b 中 给 出 的 3 阶 = 维 立方 体 互 连 拓扑 结构 ， 其 将 8 个 节点 进行 了 互 连 。n 维 立方 体 互 连 拓扑 “ 
的 一 个 优势 是 在 部 分 互 连 损坏 的 情况 下 依然 可 以 保持 连接 性 。 
7.19.1 [10] <7.8 >n 维 立方 体 中 最 多 有 多 少 互 连 损坏 时 还 能 保证 任何 节点 依然 能 够 连接 ? 请 写 出 计算 
公式 。 
7. 19.2 [10] <7.8 > 比较” 维 立方 体 和 全 互连网 络 在 节点 数量 相同 时 的 可 靠 性 。 画 图 比较 两 种 拓扑 分 别 在 
多 少 连接 损坏 时 导致 连接 失效 。 


习题 7. 20 


基准 测试 程序 (benchmark) 用 于 在 指定 的 计算 平台 上 运行 代表 性 的 工作 负荷 ， 从 而 比较 不 同系 统 之 间 
的 性 能 。 在 本 练习 中 ， 我们 将 比较 两 种 benchmark: Whetstone CPU benchmark 和 PARSEC benchmark suite 。 
从 PARSEC 中 选择 一 个 程序 。 所 有 程序 都 可 从 网 上 免费 下 载 。 考 虑 将 Whetstone 的 多 份 备份 或 PARSEC 
benchmark 运行 在 7. 11 节 中 描述 的 名 个 系统 上 。 
7.20.1 [60] <7.9 > 两 种 工作 负载 运行 在 这 些 多 核 系统 上 的 本 质 区 别 是 什么 ? 
7.20.2 [60] <7.9, 7. 10 > 使 用 Roofline Model 的 相关 术语 ， 分 析 在 运行 了 这 些 benchmark 时 ， 运 行情 况 与 
工作 负荷 中 共享 和 同步 的 数量 相关 性 有 多 大 ? 


习题 7. 21 


在 计算 稀 玖 矩阵 时 ， 存 储 器 的 延 述 至 关 重 要 。 由 于 稀疏 矩阵 缺乏 矩 阵 操作 中 常见 的 空间 局 部 性 ， 所 以 
需要 研究 新 的 矩阵 表示 方法 。 
最 早 的 稀 玖 矩阵 表示 方法 之 一 是 Yale Sparse Matrix Format。 它 使 用 3 个 一 位 数组 存储 维 数 m x n 的 矩阵 
M。 令 民 代 表 履 中 的 非 零 项 数 自 。 我 们 构造 一 个 长 度 为 R 的 数组 4 存储 中 的 所 有 非 零 项 〈 按 照 从 左 到 
右 、 从 上 到 下 的 顺序 )。 我 们 再 构造 一 个 长 度 为 m +1 的 数组 4。 14(i) 包含 第 i 行 中 第 一 个 非 零 项 在 4 中 
的 索引 号 。 原 矩阵 中 的 第 i 行 的 元 如 可 从 4(14(i)) 到 4(14(i+1) ~1) 中 得 到 。 第 三 个 数组 4 包含 4 中 
每 个 元 素 的 列 号 ， 因 此 它 的 长 度 也 为 R。 
7.21.1 [151 <7.9> 分 析 下 面 的 稀 朴 矩阵 五 ， 并 编写 C 程序 将 其 存储 为 Yale Sparse Matrix Format 。 
Row1[0,0,0,0,101 
Row 2[0,0,0,0,0] 


Row 3[8,0,0,0,6] 
Row 410,1,8,7,0] 
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Row 5[7,0,0,0,0] 

7.21.2 [10] <7. 9 > 在 存储 空间 方面 ， 假 定 和 矩阵 X 中 的 每 个 元 素 都 是 单 精度 浮 点 格式 ， 如 果 用 Yale 稀 朴 
和 矩阵 格式 存储 上 面 的 矩阵 ， 请 计算 共 需 多 少 存储 空间 。 

7.21.3 [15] <7. 9 > 执行 下 面 给 出 的 逢 阵 X 和 和 矩阵 Y 的 矩阵 乘 。 
[9, 8, 7,100, 2] 
将 该 计算 放 入 循环 中 ， 并 对 执行 过 程 进行 计时 。 确 保 增加 循环 执行 的 次 数 ， 以 在 你 的 时 间 测 量 中 获 
得 较 好 的 分 辨 率 。 比 较 失 阵 的 原始 表示 的 运行 时 间 和 Yale 稳 玖 和 矩阵 格式 的 运行 时 间 。 

7.21.4 [15] <7. 9 > 你 是 否 能 够 找到 更 加 有 效 的 稀疏 矩阵 表示 方法 (考虑 空间 和 计算 开销 )? 


习题 7. 22 

在 未 来 的 系统 中 ， 我 们 期 待 能够 看 到 由 异 构 CPU 构成 的 异 构 计算 平台 。 在 租 人 式 处 理 相 关 市 场 ，-- 些 
同时 包含 浮 点 DSP 和 微 控 制 CPU 的 多 芯片 模块 包 的 系统 已 经 开始 呈现 。 

假定 你 有 三 类 CPU: 

CPU A 一 一 每 周期 可 执行 多 条 指令 的 中 速 多 核 CPU (具有 浮 点 单元 ) 。 

CPU B 一 一 每 周期 可 执行 单条 指令 的 快速 单 核 整 型 CPU 〈 例 如 ， 无 浮 点 单元 ) 。 

CPU C 一 一 每 周期 可 执行 同样 指令 的 多 个 拷贝 的 慢 速 向 量 CPU (具备 浮 点 能 力 )。 

假定 我 们 的 处 理 器 在 下 面 的 频率 运行 ， 


CPU A CPUB CPU C 


在 每 个 时 钟 周期 ，CPU A 可 以 执行 2 条 指令 ，CPU B 可 以 执行 1 条 指令 ，CPU C 可 以 执行 8 条 指令 
(尽管 是 相同 指令 )。 假 定 所 有 的 操作 在 单 周期 延迟 中 完成 执行 ， 且 没有 任何 冒险 。 

三 个 CPU 均 可 执行 整 型 算术 ， 尽 管 CPU B 不 能 直接 执行 浮 点 算术 。CPU A 和 B 具 有 与 MIPS 处 理 器 相 
似 的 指令 集 。CPU C 仅 能 执行 浮 点 加 、 减 和 存储 器 存 、 取 操作 。 假 定 所 有 CPU 均 可 访问 共享 存储 器 ， 并 日 
同步 的 开销 为 零 。 

我 们 的 任务 是 比较 两 个 矩阵 ，X 和 Y， 它 们 每 个 都 包含 1024 * 1024 的 浮 点 元 素 。 输 出 结果 应 是 指示 矩 
阵 X 中 何 处 的 值 比 矩 阵 Y 中 的 值 大 的 一 系列 数 。 
7.22.1 [10] <7. 11 > 请 描述 如 何 划分 该 问题 到 3 个 不 同 的 CPU 上 ， 以 获得 最 佳 性 能 。 
7,22.2 [10] <7. 11 > 你 会 向 向 量 CPU C 中 增加 哪 类 指令 ， 以 获得 更 好 的 性 能 ? 


习题 7. 23 


假定 一 个 四 核 计 算 机 系统 可 以 处 理 每 秒 钟 具有 稳定 状态 率 的 数据 库 事务 。 同 时 假定 ， 每 个 事务 平均 花 
费 固定 的 时 间 来 处 理 。 下 表 给 出 了 几 对 事务 延迟 和 处 理 速率 。 


Average transaction latency Maximunm transaction processing rate 
1 ms S000/sec 
2 ms S5000/sec 
1 ms 10 000/sec 
2 ms 10 000/sec 


(average transaction latency: 平均 事务 延迟 ; Maximum transaction precessing rate: 最 大 事务 处 理 速 率 ) 
对 于 表 中 的 每 一 对 数据 ， 回 答 如 下 问题 
7.23.1 [10] <7. 11 > 在 任意 给 定 的 瞬间 ， 平均 有 多 少 请 求 被 处 理 ? 
“23.2 110] <7，11 > 如 果 移 到 8 核 的 系统 中 ， 理 想 情况 下 ， 系 统 的 知 吐 量 将 发 生 什么 变化 ( 例如， 计算 


机 每 秒 处 理 多 少 事务 )? 

7.23.3 [10] <7. 11 > 讨论 为 什么 通过 简单 地 增加 核 的 数量 ， 我 们 很 少 获得 这 种 加 速 ? 

小 测验 参考 答案 ; 

7.1 节 错误 。 作 业 级 并 行 可 以 帮助 串 行 应 用 ， 可 以 使 串 行 应 用 在 并 行 硬 件 上 运行 ， 尽 管 会 有 很 多 挑战 。 

7.2 节 错误 。 弱 缩放 可 以 补偿 程序 的 串 行 部 分 ， 强 缩放 的 缩放 性 会 被 串 行 部 分 所 限制 。 

7.3 节 错误 。 由 于 共享 地 址 是 物理 地 址 ， 且 多 任务 中 的 每 个 任务 都 在 它们 自己 的 虚拟 地 址 空间 中 ， 因 而 
可 在 共享 存储 峰 多 处 理 器 上 良好 地 运行 。 

7.4 节 1. 错误 。 发 送 和 接收 消息 是 隐 含 同步 ， 和 共享 数据 一 样 。2. 正确 。 

7.S 节 1. 正确 。2. 正确 。 

7.6 节 正确 。 

7.7 节 错误 。 图 形 DRAM DIMM 因 其 更 高 的 带宽 而 被 移 扬 。 

7.9 节 正确 。 我 们 或 许 需要 在 硬件 的 所 有 层次 和 软件 栈 上 进行 革新 ， 以 赢得 工业 界 在 并 行 计算 上 所 下 的 
赌注 。 
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图 形 和 计算 GPU 
John Nickolls 
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想象 力 比 知识 更 重要 。 
阿尔 伯 特 : 爱 因 斯 坦 , 《on Science》，1930 
A.1 引言 


本 附录 主要 讨论 GPUS 一 一 一 种 普遍 存在 于 PC、 笔 记 本 、 桌 面 计 算 机 和 工作 站 中 的 图 形 处 
理 单元 。 在 它 的 大 多 基本 形式 中 ，GPU 产生 2D 和 3D 的 图 形 、 图 像 和 视频 ， 以 支持 基于 窗口 的 
操作 系统 、 图 形 用 户 界面 、 视 频 游戏 、 可 视 化 图 像 应 用 和 视频 播放 。 我 们 在 此 描述 的 现代 GPU 
是 为 可 视 化 计算 而 优化 的 高 度 并 行 、 多 线程 处 理 器 。 为 了 通过 图 形 、 图 像 和 视频 ， 提 供与 计算 
模型 的 实时 、 可 视 交 互 能 力 ，GPU 具有 一 个 统一 的 图 形 计算 结构 ， 同 时 也 是 可 编程 的 图 形 处 理 
器 和 标量 并 行 处 理 平台 。 个 人 计算 机 和 游戏 主机 将 GPU 与 CPU 组 合 形成 一 个 异 构 系 统 ” 。 


A. 1.1 GPU 发 展 简 史 


大 约 15 年 前 ，GPU 还 没有 出 现 ，PC 上 的 图 形 操作 由 视频 图 形 阵列 (VGA) 控制 器 完成 。 
简单 地 说 ，VGA 控制 器 由 连接 到 一 定 容 量 DRAM 上 的 存储 控制 器 和 显示 产生 器 构成 。 在 20 世纪 
90 年 代 ， 半 导体 技术 获得 了 充分 的 发 展 ， 更 多 的 功能 可 以 加 入 到 VGA 控制 器 中 。 到 1997 年 ， 
VGA 控制 器 开始 具有 一 些 三 维 (3D) 加 速 功能 ， 包 括 用 于 三 角形 生成 、 光 机 化 (将 三 角形 切割 
成 单独 的 像素 ) 、 纹 理 贴图 和 阴影 (为 像素 使 用 贴纸 或 图 案 并 混合 颜色 )。 

在 2000 年 ,一 个 单 片 图 形 处 理 器 集成 了 传统 高 端 工作 站 图 形 流水 线 的 几乎 每 一 个 细节 ， 因 此 ， 应 
当 在 VGA 控制 器 之 外 取 一 个 新 的 名 字 。 术 语 GPU 用 来 表示 图 形 设备 已 经 变 成 了 一 个 处 理 器 。 

随 着 时 间 的 推移 ，GPU 的 可 编程 性 愈 发 强大 ， 其 作为 可 编程 处 理 器 取代 了 固定 功能 的 专用 
逻辑 ， 同 时 保持 了 基本 的 3D 图 形 流水 线 组 织 。 另 外 ， 随 着 时 间 的 推移 ， 计 算 变 得 更 为 精确 ， 从 
索引 算术 、 整 型 和 定点 发 展 到 单 精度 浮 点 ， 再 到 近来 的 双 精 度 浮 点 。GPU 已 经 变 成 具有 上 百 个 
核 和 上 和 于 个 线程 的 大 规模 并 行 可 编程 处 理 器 。 

近来 ，GPU 增加 了 处 理 器 指令 和 存储 器 硬件 ， 以 支持 通用 编程 语言 ， 并 且 创 立 了 一 种 编程 
环境 ， 以 允许 使 用 熟悉 的 语言 (包括 C/C ++ ) 对 GPU 进行 编程 。 这 种 革新 使 GPU 成 为 了 一 个 


名 ”图形 处 理 单元 〈graphica processing unit，GPU) ; 一 种 面向 2D 和 3D 图 形 、 视 频 、 可 视 化 计算 和 显示 优化 的 处 
理 项 。 

”可视化 计算 (visual computing) : 图 形 处 理 和 计算 的 混合 体 ， 使 得 用 户 可 以 通过 图 形 、 图 像 和 视频 可 视 化 与 计算 
对 象 进行 交互 。 

四 异 构 系 统 (heterogeneous system) : 由 不 同类 型 处 理 器 组 成 的 系统 ， 如 PC 是 CPU 和 GPU 组 成 的 异 构 系 统 。 
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完全 通用 的 、 可 编程 的 多 核 处 理 器 ， 具 备 一 些 独特 的 优势 ， 也 有 一 定 的 局 限 性 。 

GPU 的 趋势 

”GPU 及 其 相关 驱动 实现 了 图 形 处 理 中 的 OpenGL 和 DireetX 模型 。OpenGL 是 一 个 大 多 数 计算 
机 使 用 的 用 于 3D 图 形 编程 的 开放 标准 。DirectX 是 一 系列 微软 多 媒体 编程 接口 ， 包 括 用 于 3D 图 
形 的 Direet3D。 由 于 这 些 应 用 程序 接口 9 具有 定义 明确 的 行为 ， 通 过 这 些 API， 为 图 形 处 理 功能 
构建 高 效 的 硬件 加 速 器 成 为 可 能 。 这 是 每 隔 12 ~ 18 个 月 就 推 能 出 一 款 使 现 有 应 用 程序 执行 性 能 
翻 倍 的 新 GPU 的 原因 之 一 〈 除 了 增加 器 件 密度 之 外 ) 。 

GPU 性 能 经 常 性 地 成 倍 提升 使 得 过 去 不 可 能 实现 的 新 应 用 成 为 可 能 。 图 形 处 理 和 并 行 计算 
的 交叉 俊生 了 图 形 的 一 种 新 范例 ， 就 是 我 们 所 知道 的 可 视 化 计算 。 它 以 几何 学 可 编程 元 素 、 顶 点 
和 像素 例 程 取 代 了 大 部 分 传统 的 顺序 硬件 图 形 流 水 线 模型 。 现 代 GPU 中 的 可 视 化 计算 以 一 种 革 
新 的 方式 组 合 了 图 形 处 理 和 并 行 计算 ,允许 实 现 新 的 图 形 算法 ， 并 打开 了 通 向 在 普 适 高 性 能 
GPU 上 进行 全 新 的 并 行 处 理应 用 的 大 门 。 


A. 1.2 异 构 系统 


尽管 论证 表明 GPU 是 典型 PC 中 具有 最 多 并 行 性 和 最 强大 性 能 的 处 理 器 ， 但 它 的 确 不 是 唯一 
的 处 理 器 。 现 在 是 多 核 ， 很 快 将 会 是 众 核 的 CPU 作为 补充 ， 将 是 主要 的 串 行 处 理 器 ， 是 与 大 规 
使 并 行 众 核 GPU 共同 工作 的 处 理 器 。 这 两 种 类 型 的 处 理 器 一 起 组 成 了 异 构 微 处 理 器 系统 。 

众多 应 用 程序 的 最 好 性 能 来 源 于 同时 使 用 CPU 和 GPU。 本 附录 将 帮助 你 理解 如 何 及 何 时 在 
这 两 个 并 行 度 都 在 增加 的 处 理 器 中 最 好 地 划分 工作 。 


A. 1.3 GPU 发 展 成 了 可 扩展 的 并 行 处 理 器 


GPU 的 功能 已 经 从 硬 连 线 、 能 力 有 限 的 VGA 控制 器 发 展 为 可 编程 的 并 行 处 理 器 ， 从 逻辑 
(基于 API) 图 形 流水 线 发 展 到 混合 可 编程 元 素 。 最 终 ，GPU 使 得 将 异 构 的 可 编程 流水 线 元 素 融 
合成 一 个 统一 的 众 核 可 编程 处 理 器 阵列 具有 了 意义 。 

在 GeForce 8 系列 CPU 中 ， 几何、 顶点 和 像素 处 理 均 在 相同 类 型 的 处 理 器 上 运行 。 这 种 统一 
带 来 了 显著 的 可 扩展 性 。 更 多 的 可 编程 处 理 器 核心 增加 了 系统 的 总 吞吐 量 。 统 一 的 处 理 器 在 负 
载 陪 衡 方面 也 非常 有 效 ， 因 为 任何 处 理 功 能 均 可 使 用 整个 处 理 器 阵列 。 另 一 方面 ， 现 在 可 以 使 用 
非常 少 的 处 理 器 来 构建 处 理 器 阵列 ， 因 为 所 有 的 功能 都 能 在 同样 的 处 理 器 上 运行 ， 


A.1.4 为 什么 使 用 CUDA 和 GPU 计算 


这 个 统一 、 可 扩展 的 处 理 器 阵列 使 得 GPU 产生 了 一 个 新 的 可 编程 模型 。GPU 处 理 器 阵列 所 
拥有 的 强大 浮 点 处 理 能 力 在 解决 非 图 形 问题 方面 具有 很 大 的 吸引 力 。 处 理 器 阵列 在 图 形 处 理 方 
面 所 县 有 的 强大 并 行 性 和 可 扩展 性 ， 使 得 为 通用 计算 而 使 用 的 编程 模型 可 以 直接 表达 大 规模 并 
行 性 ， 并 且 人 允许 扩展 执行 。 

GPU 计算 是 通过 并 行 编程 语言 和 API 使 用 GPU， 而 不 是 用 传统 的 图 形 API 和 图 形 流水 线 模 
型 ， 进 行 计算 而 产生 的 术语 。 这 是 为 了 与 早 前 使 用 图 形 API 和 图 形 流水 线 进行 非 图 形 任务 的 
GPU 上 的 通用 计算 2 方法 进行 区 别 。 


名 ”应 用 程序 接口 (Application Programming Interface，API) ; 盟 数 和 数据 结构 定义 的 集合 ， 为 函数 库 提供 一 个 接口 。 

电 GPU 计算 (GPU computing ) 通过 并 行 编程 语言 和 API 使 用 GPU 进行 计算 。 

妃 GPU 上 的 通用 计算 ( Ceneral Purpose computation on GPU，GPGPU) : 通过 传统 的 图 形 API 和 图 形 流水 线 进 行 通 用 
月 的 的 计算 。 
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统一 计算 设备 架构 ?是 GPU 和 其 他 并 行 处 理 器 的 一 个 可 扩展 的 编程 模型 和 软件 平台 ， 人 允许 程 
序 员 跳 过 GPU 中 的 图 形 API 和 图 形 接口 ， 仅 用 C 或 C ++ 进行 编程 。CUDA 编程 模型 具有 SPMD 
(单程 序 多 数据 ) 软件 特征 ， 即 程序 员 为 单个 线程 编写 的 程序 ， 在 GPU 的 多 核 中 由 众多 线程 实例 
化 然后 并 行 执行 。 实 际 上 ，CUDA 也 为 多 CPU 核 提 供 了 一 个 编程 工具 ， 因 此 CUDA 是 一 个 为 整个 
异 构 计算 机 系统 编写 并 行程 序 的 环境 。 


A. 1.5 GPU 统一 了 图 形 和 计算 


随 着 CPU 性 能 的 增加 又 产生 了 CUDA 和 GPU 计算 ， 这 使 得 用 GPU 同时 作为 图 形 处 理 器 和 计 
算 处 理 器 ， 并 在 可 视 化 计算 应 用 中 组 合 这 些 用 途 成 为 可 能 。GPU 内 在 的 处 理 器 架构 在 两 个 地 方 
体现 出 来 : 首先 ， 可 编程 的 图 形 API 的 实现 ; 其次， 在 CUDA 模型 下 使 用 C/C ++ 语言 可 编程 的 
大 规模 并 行 处 理 器 。 

尽管 CPU 的 内 部 处 理 器 是 统一 的 ， 但 让 所 有 的 SPMD 线程 程序 都 相同 却 没 有 必要 。GPU 可 
在 GPU 图 形 方 面 运行 图 形 阴影 程序 ， 处 理 几何 、 顶 点 和 像素 ， 同 时 也 在 CUDA 中 运行 线程 程序 。 

GPU 是 一 个 真正 的 通用 多 处 理 器 结构 ， 支 持 大 量 的 处 理 任务 。GPU 在 图 形 和 可 视 化 计算 方 
面 是 性 能 早 越 的 ， 因 为 它 专门 面向 这 些 应 用 设计 。GPU 在 众多 与 图 形 处 理 类 似 的 通用 应 用 上 也 
是 性 能 卓越 的 ， 因 为 这 些 应 用 执行 大 量 的 并 行 操作 ， 并 具有 规整 的 问题 结构 。 一 般 而 言 ， 它 们 与 
数据 并 行 问题 非常 匹配 (参见 第 7 章 ) ， 特 别 是 大 数据 量 的 问题 ， 但 在 规则 人 性 不 强 、 数据 量 较 小 
的 问题 方面 表现 较 差 。 


A. 1.6 GPU 可 视 化 计算 的 应 用 


可 视 化 计算 包括 了 传统 的 图 形 应 用 ， 并 加 入 了 许多 新 的 应 用 。 最 初 GPU 的 应 用 范围 仅 限于 
做 “和 像素 有 关 ” 的 事情 ， 而 现在 包括 了 很 多 与 像素 无 关 ， 却 有 着 规则 计算 和 数据 结构 的 问题 。 
GPU 在 2D 和 3D 图 形 处 理 方 面 是 高 效 的 ， 因 为 GPU 正 是 为 此 设计 的 。 在 该 应 用 性 能 方面 的 失败 
将 是 致命 的 。2D 和 3D 图 形 以 “图 形 模式 ”使 用 GPU， 通过 图 形 API、OpenGL™ 和 DireceX™ 使 
用 GPU 强大 的 处 理 能 力 。 游 戏 是 基于 3D 图 形 处 理 能 力 构 建 的 。 

除了 2D 和 3D 图 形 ， 图 像 处 理 和 视频 对 于 GPU 来 说 也 是 重要 的 应 用 。 这 些 可 以 在 计算 模式 
下 ， 使 用 CUDA 对 GPU 进行 编程 ， 使 用 图 形 API 或 计算 程序 来 实现 。 使 用 CUDA 图 像 处 理 仪 仅 
是 慷 一 种 数据 并 行 阵列 程序 。 对 于 数据 访问 规则 且 有 良好 局 部 性 的 应 用 来 说 ， 程序 将 极为 高 效 。 
事实 上 ， 图 像 处 理 对 于 GPU 来 说 是 非常 好 的 应 用 。 视 频 处 理 ， 尤 其 是 编 解码 (根据 一 些 标准 算 
法 进行 压缩 和 解压 缩 ) 是 非常 有 效 的 。 

GPU 上 可 视 化 计算 应 用 的 最 大 特点 在 于 “打破 了 图 形 流水 线 ”。 尽 管 先前 的 GPU 具有 非常 
高 的 性 能 ， 但 仅 实现 了 特定 的 图 形 API。 如 果 API 支持 你 想 要 的 操作 ， 将 会 是 绝妙 的 ; 如 果 不 支 
持 ，GPU 就 不 能 加 速 你 的 任务 ， 因 为 早期 的 CPU 功能 是 不 可 变 的 。 现在 ， 随 着 GPU 计算 和 CU- 
DA 的 出 现 ， 仅 通过 编写 CUDA 程序 描述 所 需 的 计算 和 数据 流 ， 就 可 以 对 这 些 GPU 编程 以 实现 不 
间 的 虚拟 流水 线 。 因 此 ， 所 有 的 应 用 现在 都 是 可 能 的 ， 这 将 刺激 新 的 可 视 计算 方法 。 


A.2 GPU 系统 架构 


在 本 节 中 ， 我 们 概述 当前 普遍 使 用 GPU 的 系统 结构 。 我 们 讨论 系统 配置 、GPU 功能 和 服务 、 
标准 编程 接口 和 基本 的 GPU 内 部 结构 。 / 


名 ”统一 计算 设备 架构 〈Compute Unified Device Architecture, CUDA) ， 一 个 基于 C/C ++ 语言 的 可 扩展 并 行 编程 模型 ， 
它 是 面向 GPU 和 多 核 CPU 的 一 个 并 行 编程 平台 。 
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A.2.1 异 构 CPU-GPU 系统 架构 


一 个 使 用 GPU 和 CPU 的 异 构 计算 机 系统 架构 ， 可 以 在 较 高 的 层次 上 使 用 两 种 主要 的 特征 进 
行 描述 : 首先 ,使 用 了 多 少 功 能 子 系统 或 芯片 ， 它 们 的 互联 技术 和 拓扑 是 什么 ; 其 次 ， 什 么 存储 
子 系统 对 这 些 功 能 子 系统 是 可 用 的 。PC 的 VO 系统 和 芯片 组 的 背景 知识 可 以 参考 第 6 章 。 

历史 上 的 PC (1990 年 前 后 ) 

A-2-1 是 1990 年 前 后 遗留 下 来 PC 机 的 高 


层 模块 图 。 北 桥 (参看 第 6 章 ) 包含 了 高 带宽 Re 
接口 ， 将 CPU 、 存 储 器 和 PCI 总线 连接 起 来 。 南 

桥 包 食 了 早期 接口 和 设备 : ISA 总 线 (音频 、 局 北桥 内 存 
域 网 ) 、 中 断 控 制 器 ，DMA 控制 器 ， 定 时 器 /计数 rm 


希 。 在 这 个 系统 中 ， 显 示 髓 由 连接 到 PCI 总 线 上 
的 一 个 简单 帧 缓存 子 系统 (我 们 所 知 的 VCGA， 视 
频 图 形 阵 列 ) 驱动 。 具 有 内 建 处 理 元 素 的 图 形 子 
系统 (GPU) 在 1990 年 的 PC 环境 中 是 不 存在 的 。 1 

图 A-2-2 给 出 了 目前 普遍 使 用 的 两 种 配置 。 UAR oe 
它们 的 特征 为 具有 独立 GPU (离散 GPU) 和 ns 
CPU， 并 有 各 自 的 存储 子 系统 。 在 图 A-2-2a 中 ， 图 A-2-1 历史 上 的 PC 
我 们 可 以 看 到 ，GPU 通过 16 通道 的 PCI- ExpressG VGA 控制 器 从 帧 缓存 存储 器 驱动 图 形 显示 器 。 
2. 0 揪 槽 与 Intel CPU 连 在 一 起 ， 可 提供 16 GB/s 传输 速率 (每 个 方向 各 为 8 GB/s) 。 与 此 类 似 ， 在 
图 A-2-2b 中 ，GPU 首先 连接 到 芯片 组 ， 然 后 再 通过 具有 同样 可 用 带宽 的 PCI- Express 与 AMD 的 
CPU 相连 。 在 上 面 的 两 种 情况 下 ，GPU 和 CPU 均 可 访问 对 方 的 存储 器 ， 尽 管 带宽 比 访问 它们 直接 
连接 的 存储 器 要 小 。 在 上 面 AMD 的 情形 中 ， 北 桥 或 内 存 控 制 器 与 CPU 集成 到 了 同一 个 芯片 中 。 
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图 A-2-2 具有 Intel 和 AMD CPU 的 当代 PC 
图 中 组 件 和 互联 的 解释 可 以 参考 第 6 章 。 


这 些 系统 的 一 种 低 成 本 变种 是 统一 存储 结构 系统， 即 仅 使 用 CPU 存储 器 ， 而 省 上 略 CPU 存 


加 ”PCLExpress (PCle) : 一 种 使 用 点 对 点 链 路 的 系统 标准 /0 互 连 ， 其 链 路 具有 可 配置 的 槽 数 和 带宽 。 
已 ”统一 存储 结构 unified memor architecture，UMA ) : 一 种 CPU 和 GPU 共享 系统 存储 器 的 体系 结构 。 
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储 器 。 这 些 系 统 使 用 性 能 相对 较 低 的 GPU， 因 为 它们 可 获得 的 性 能 受 限 于 可 用 系统 存储 带宽 和 
增加 的 存储 器 访问 延迟 ， 而 专用 的 CPU 存储 器 具有 高 带宽 和 低 延 时 。 

一 个 高 性 能 变种 是 使 用 多 个 相连 的 GPU (典型 的 是 使 用 2 ~4 个) 并 行 工 作 ， 使 用 菊花 链 将 
它们 组 织 起 来 。 该 系统 的 -个 实例 是 NVIDIA SLI (可 扩展 链 路 交互 ) 多 CPU 系统 ， 主 要 面向 高 
性 能 游戏 和 工作 站 设计 。 

下 一 类 系统 是 将 CPU 和 北桥 集成 (Intel) 或 将 CPU 和 具有 或 没有 专用 的 存储 器 的 芯片 组 
(AMD) 集成 。 

第 5 章 解 释 了 在 共享 地 址 空间 中 ，cache 怎样 维持 一 致 性 。 有 了 CPU 和 GPU， 就 有 了 多 个 地 
址 空间 。GPU 可 以 访问 它们 自己 的 物理 局 部 存储 器 ， 并 通过 GPU 中 MMU 转换 出 的 虚拟 地 址 对 
CPU 系统 中 物理 存储 器 进行 访问 。 操 作 系统 内 核 管理 CPU 的 页 表 。 系 统 物理 页 可 以 使 用 连贯 的 
或 非 连贯 的 PCI- Express 事务 进行 访问 ， 由 GPU 页 表 中 的 一 个 属性 决定 。CPU 可 以 通过 PCI Ex- 
press 地 址 空间 的 一 个 地 址 范围 〈 也 称 为 缝隙 ) 访问 GPU 的 局 部 存储 器 。 

游戏 控制 机 

游戏 控制 机 系统 ， 如 Sony 的 PlayStation 3 和 Microsoft 的 Xbox 360 类 似 于 先前 描述 的 PC 系统 
结构 。 控 制 机 系统 设计 的 目标 是 ， 产 品 出 售 时 保证 在 五 年 或 更 长 的 生命 周期 中 ， 都 具有 同样 的 性 
能 和 功能 。 在 这 期 间 ， 一 个 系统 或 许 被 重新 实现 很 多 次 ， 以 采用 更 先进 的 硅 片 制造 工艺 ， 在 保持 
性 能 不 变 的 情况 下 降低 成 本 。 控 制 系统 不 需要 使 其 子 系统 像 PC 系统 那样 不 断 地 膨胀 和 升级 ， 因 
此 主要 的 内 部 条 统 总 线 趋 向 于 自 定 义 而 不 是 标准 化 。 


A. 2.2 GPU 接口 和 驱动 


今天 的 PC 中 ，GPU 通过 PCI- Express 连接 到 CPU。 先 前 的 PC 代 系 使 用 AGPe . 图 形 应 用 调 
用 OpenGL [Segal 和 Akeley，2006] 或 Direct3D 「 Microsoft DirectX Specification ] API 功能 ,将 
CPU 作为 协 处 理 器 使 用 。API 通过 面向 特殊 GPU 优化 的 图 形 设备 驱动 向 GPU 发 送 命 令 、 程 序 和 
数据 。 


A.2.3 图 形 逻辑 流水 线 
在 A.3 节 将 对 图 形 逻 辑 流水 线 进行 描述 。 图 A-2-3 说 明了 主要 处 理 阶段 ， 并 对 重要 的 可 编程 


阶段 用 灰色 框 表示 〈( 顶 点、 几何 和 像素 演 染 阶段 ) 。 
可 编程 图 形 演 染 阶段 用 灰色 表示 ， 畴 定 功能 块 用 白色 表示 。 





图 A-2-3 图 形 逻 辑 流水 线 


A.2.4 将 图 形 流水 线 映射 到 统一 的 GPU 处 理 器 


图 A-2-4 显示 了 如 何 将 由 分 立 、 独立 的 可 编程 阶段 组 成 的 逻辑 流水 线 映 射 到 处 理 器 的 物理 分 
布 的 阵列 上 。 


局 AGP: 一 个 PCI LO 总 线 的 扩展 版 本 ， 为 一 个 单一 的 卡 模 提 供 高 达 8 倍 于 原始 PCI 总 
将 图 形 子 系统 连接 到 PC 系统 。 线 的 带宽 。 它 的 主要 目的 是 
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到 几何 泻 染 2 中 





光栅 操作 /输出 合并 


图 A-2-4 逻辑 流水 线 映 射 到 物理 处 理 辫 
可 编程 的 泻 染 阶段 在 统一 的 处 理 器 阵列 上 执行 ， 逻 辑 图 形 流 水 线 的 数据 流通 过 处 理 器 不 断 循环 。 


A. 2.5 基本 的 统一 GPU 结构 


统一 CPU 结构 是 以 多 个 可 编程 处 理 器 组 成 的 并 行 阵列 为 基础 的 。 它 们 在 同样 的 处 理 器 上 统 
一 了 顶点 、 几 何 、 像 素 演 染 处 理 和 并 行 计算 ， 而 不 像 早 期 的 GPU， 对 于 每 种 处 理 类 型 有 专用 的 
分 立 处 理 器 。 可 编程 处 理 菜 阵列 与 用 于 纹理 滤波 、 光 栅 化 、 光 机 操作、 别名 消除 、 压 缩 、 解 压 、 
显示 、 视 频 解 码 和 高 清 视频 处 理 的 固定 功能 处 理 器 紧密 集成 。 尽 管 固定 功能 处 理 器 在 由 面积 、 成 
本 和 功 耗 开销 约束 的 绝对 性 能 方面 要 明显 优 于 更 为 通用 的 可 编程 处 理 器 ， 我 们 在 此 仍 以 可 编程 
处 理 器 为 重点 。 

与 多 核 CPU 相 比 ， 众 核 CPU 具有 不 同 的 结构 设计 出 发 点 ， 它 着 力 于 在 众多 的 处 理 器 核 上 有 
效 地 执行 众多 的 并 行 线 程 。 通 过 使 用 众多 的 简单 核 ， 并 在 线程 组 间 对 数据 并 行进 行 优化 ， 提 高 了 
单 片 唱 体 管用 于 计算 的 比例 ， 并 降低 了 片上 cache 和 开销 。 

处 理 器 阵列 

一 个 统一 CPU 处 理 器 阵列 包含 众多 的 处 理 器 核 ， 典 型 地 使 用 多 线程 多 处 理 的 方式 组 织 。 
图 A-2-5 展 示 了 一 个 GPU， 它 具有 112 个 流 处 理 器 (SP) 核 阵 列 ， 并 组 织 成 14 个 多 线程 流 处 
理 多 核 处 理 器 (SM) 。 每 个 SP 核 是 高 度 多 线程 的 ， 并 通过 硬件 管理 96 个 并 发 线程 和 它们 的 
状态 。 这 些 处 理 器 通过 内 部 互联 网 络 与 4 个 64 位 宽 的 DRAM 分 区 相连 。 每 个 SM 具有 8 个 SP 
核 ， 两 个 专用 功能 单元 (SFU) ， 指 令 和 常量 cache， 一 个 多 线程 指令 单元 和 一 个 共享 存储 器 。 
这 是 由 NVIDIA GeForce 8800 实现 的 基本 Tesla 结构 。 它 具有 一 个 统一 的 结构 ， 在 该 结构 下 ， 
传统 的 对 于 顶点 、 几 何 和 像素 泻 染 的 图 形 应 用 可 以 在 统一 的 SM 和 它们 的 SP 核 上 运行 ， 且 计 
算 程序 在 同样 的 处 理 器 上 运行 。 

通过 缩放 多 处 理 器 的 个 数 和 存储 器 分 区 的 数量 ， 处 理 器 阵列 结构 的 规模 可 以 缩放 到 较 小 或 
更 大 的 CPU 配置 上 。 图 A-2-5 展示 了 具有 2 个 SM 的 7 个 簇 ， 共 享 纹理 单元 和 纹理 LI cache。 纹 
理 单 元 将 过 滤 后 的 结果 传递 给 SM， 并 以 纹理 图 的 形式 给 出 坐标 集合 。 因 为 对 于 连续 的 纹理 请 求 
来 说 ， 支 持 的 过 滤 区 域 常常 是 重要 的 ， 一 个 小 的 流 化 的 LI 纹理 cache 对 减少 存储 器 系统 请 求 是 
有 效 的 。 处 理 器 阵列 通过 一 个 GPU 宽度 的 内 部 五 联网 络 与 光栅 操作 处 理 器 (ROP) 、L2 纹理 
cache、 外 部 DRAM 存储 器 和 系统 存储 器 相连 。 处 理 器 数量 和 存储 器 数量 可 以 根据 不 同 的 性 能 和 
市 场 区 域 进行 缩放 ， 以 设计 均衡 的 GPU 系统 。 
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图 A-2-5 基本 的 统一 GPU 结构 

示例 CPU 具有 组 织 成 14 个 流 多 核 的 112 个 流 处 理 器 核 ;这些 核 是 高 度 多 线程 的 。 该 GPU 具有 NVIDIA Ge- 

Force 8800 的 基本 Tesla 结构 。 处 理 器 通过 内 部 互联 网 络 连 到 4 个 64 位 宽 的 DRAM 分 区 。 每 个 SM 具有 8 个 SP 
核 ， 两 个 特殊 功能 单元 ， 指 令 和 常量 cache， 一 个 多 线程 指令 单元 和 一 个 共享 存储 器 。 


A. 3 可 编程 GPU 


可 编程 的 多 处 理 GPU 和 可 编程 的 其 他 多 处 理 器 ， 如 多 核 CPU ， 在 本 质 上 是 不 同 的 。GPU 提 
供 的 线程 和 数据 并 行 是 CPU 的 2 ~3 个 数量 级 ， 规 模 在 上 百 个 处 理 器 核 和 数 万 并 发 线程 (在 2008 
年 ) 。 集 成 电路 密度 的 增加 和 体系 结构 效率 的 提高 ， 使 得 GPU 的 并 行 度 得 到 了 持续 的 增加 ， 每 
12 ~ 18 个 月 翻 一 倍 。 为 了 在 不 同 的 市 场 区 域 中 覆盖 较 广 的 价格 和 性 能 范围 ， 不 同 的 GPU 实现 在 
处 理 器 和 线程 数量 方面 有 很 大 的 变动 。 然 而 用 户 期 望 游戏 、 图 形 、 图 像 和 计算 应 用 在 GPU 上 运 
行 ， 而 不 用 考虑 它 运 行 了 多 少 并 发 线程 和 它 具 有 多 少 并 发 的 核 ， 用 户 还 希望 越 贵 的 GPU (具有 
更 多 线程 和 核 ) 运行 应 用 时 越 快 。 因 此 ，GPU 编程 模型 和 应 用 程序 设计 以 透明 扩展 的 方式 支持 
到 大 范围 的 并 行 。 

实时 图 形 性 能 是 CPU 采用 大 量 并 行 线程 和 核 的 驱动 力 ， 例 如 在 高 分 辩 率 下 需要 以 至 少 60 
帧 / 秒 的 速率 泻 染 复杂 3D 场景 。 相 应 地 ， 设 计 了 图 形 泻 染 语言 的 可 扩展 编程 模型 ， 如 Cg (C for 
graphics) 和 HLSL (high-level shading language) ， 通 过 众多 独立 并 行 线程 并 扩展 到 任意 数量 的 处 
理化 核 上 ， 开 发 更 大 的 并 行 度 。CUDA 的 可 扩展 并 行 编程 模型 ， 同 样 使 得 通用 并 行 计 算 应 用 可 利 
用 大 量 的 并 行 线程 ， 而 且 可 以 对 应 用 透明 的 方式 扩展 到 任意 数量 的 并 行 处 理 器 核 上 。 

在 这 些 可 扩展 的 编程 模型 中 ， 程 序 员 为 单线 程 编写 代码 ， 而 GPU 则 以 并 行 方式 运行 无 数 的 
线程 实例 。 这样 ， 程 序 透 明 地 扩展 到 很 大 范围 的 硬件 并 行 。 这 个 简单 的 范例 是 由 描述 如 何 泻 染 一 
个 顶点 或 像素 的 图 形 API 和 泻 染 语言 引发 的 。 自 20 世纪 90 年 代 后 期 以 来 ， 这 个 一 直 作 为 GPU 
快速 提高 其 并 行 度 和 性 能 的 一 个 范例 。 
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本 节 简 要 描述 使 用 图 形 API 和 可 编程 语言 ， 将 可 编程 CPU 用 于 实时 图 形 应 用 。 接 着 描述 使 
用 C 语言 和 CUDA 可 编程 语言 ， 将 可 编程 CPU 用 于 可 视 计算 和 通用 并 行 计算 应 用 。 


A. 3.1 为 实时 图 形 编程 


API 在 CPU 和 处 理 器 的 快速 、 成 功 开发 方面 扮演 着 重要 的 角色 。 有 两 种 主要 的 标准 图 形 
API，OpenGL2 和 Direct3D® (Microsoft DirectX 多 媒体 编程 接口 中 的 一 个 ) 。OpenGL 是 一 个 开放 
的 标准 ， 最 初 由 Silicon Graphics Incorporated 提出 并 定义 。OpenGL 标准 [Segal 和 Akeley，2006 ] ， 
[ Kessenich，2006 ] 的 现行 开发 和 扩充 由 Khronos 和 工业 界 管理 。Direct3D [ Blythe，2006] ， 一 个 
实际 上 的 标准 ， 由 微软 及 其 伙伴 定义 并 推动 。OpenGL 和 Direct3D 具有 相似 的 结构 ， 都 随 着 GPU 
硬件 的 发 展 而 快速 、 持 续 地 发 展 。 它 们 定义 了 一 个 逻辑 图 形 处 理 流水 线 ， 并 将 其 映射 到 GPU 硬 
件 和 处 理 器 上 ， 同 时 为 可 编程 流水 段 提 供 了 编程 模型 和 语言 。 


A 3.2 逻辑 图 形 流水 线 


图 A-3-1 展示 了 DirecB3D 10 逻辑 图 形 流水 线 。OpenGL 具有 一 个 相似 的 图 形 流水 线 结构 。 
AHI 和 敢 辑 流水 线 为 流 数据 流 提供 基础 ， 并 为 可 编程 泻 染 阶段 提供 管道 ， 用 黑体 标 出 。3D 应 用 
向 CPU 发 出 以 几何 原 语 (点 、 线 、 三 角形 和 多 边 形 ) 分 组 的 顶点 序列 。 输 入 装配 器 收集 顶点 和 
原 语 。 顶 点 泻 染 程序 对 每 个 顶点 进行 处 理 ， 包 括 将 顶点 的 3D 位 置 转化 成 屏幕 位 置 ， 并 点 亮 顶 点 
以 决定 它 的 颜色 。 几 何 泻 染 程序 对 每 个 原 语 进行 处 理 ， 可 以 增加 和 放弃 原 语 。 建 立 和 光栅 化 单元 
建立 由 几何 原 语 覆 盖 的 像素 段 〈 段 是 像素 的 潜在 属性 ) 。 像 素 泻 染 程序 对 每 个 段 进 行 处 理 ， 为 每 
段 深 加 参数 、 纹 理 和 颜色 。 像 素 泻 染 大 量 使 用 采样 和 过 滤 ， 使 用 插值 浮 点 坐标 在 称 为 纹理 9 的 
1D、2D 或 3D 数组 中 进行 查找 。 泻 染 为 映射 、 功 能 、 贴 花 、 图 像 和 数据 进行 纹理 访问 。 光 棚 操 
作 处 理 阶段 执行 Z-buffer 深度 测试 和 模板 测试 ， 在 这 两 种 测试 中 ， 可 以 丢弃 隐藏 像素 段 或 用 段 的 
深度 取代 像素 深度 ， 并 执行 颜色 合成 操作 ， 将 段 颜色 和 像素 颜色 进行 组 合并 将 合成 后 的 颜色 写 
人 像素 点 。 


顶点 泻 染 |>| 几何 泻 染 光环 人 上 > 像素 泻 染 上 | 光栅 操作 /输出 合并 | 
上 sq 出 、 
GPU 





图 A-3-1 Direct3D 10 图 形 流 水 线 
每 一 个 逻辑 流水 线 对 应 于 GPU 硬件 或 者 CPU 处 理 器 。 可 编程 泻 染 阶段 由 深 灰 色 表示 ， 固 定 功能 块 由 白色 
表示 ， 存 储 用 灰色 表示 。 每 级 以 流 数据 流 模式 处 理 一 个 顶点 、 几何 原 语 或 像素 。 


图 形 AFL 和 图 形 流水 线 为 对 每 个 顶点 、 原 语 和 像素 段 进行 处 理 的 浑 染 程序 所 供 输入 、 和 输出， 
存储 对 象 和 基础 。 


名 ”0penGL: 一 个 开放 的 标准 图 形 API， 
后 Direct3D. 由 微软 及 其 合作 伙伴 定义 的 一 个 图 形 API， 
所 纹理 (texture): 支持 使 用 插值 坐标 进行 采样 和 过 滤 的 一 个 1D、 2D 或 3D 的 数组 。 


附录 A 图 形 和 计算 GPU . 447 


A. 3.3 图形 泻 染 程序 

实时 图 形 应 用 使 用 很 多 不 同 的 泻 染 程序 9 对 灯光 与 不 同 材质 的 相互 影响 进行 建 模 ， 并 演 染 
(render) 复杂 的 灯光 和 阴影 。 泻 染 语言 基于 逻辑 图 形 流水 线 相应 的 数据 流 或 流 编程 模型 。 顶 点 
泻 染 程序 将 三 角 顶 点 的 位 置 映射 到 屏幕 上 ， 变 换 它 们 的 位 置 、 颜 色 或 方位 。 典 型 地 ， 顶 点 泻 染 线 
程 接收 一 个 浮 点 类 型 的 (x，y，z，w) 顶点 位 置 ， 计 算 后 得 到 一 个 浮 点 类 型 的 (x，y，z) 屏幕 
位 置 。 几 何 泻 染 程序 对 由 多 个 顶点 定义 的 几何 原 语 (如 线 和 三 角形 〉 进行 操作 ， 对 它们 进行 变 
换 或 产生 额外 的 原 语 。 像 素 段 泻 染 对 每 个 像素 进行 “ 演 染 " ， 计 算 一 个 浮 点 的 红 、 绿 、 蓝 和 alpha 
(RGBA) 颜色 ， 用 于 在 它 的 像素 采样 (x，y) 图 像 位 置 显示 图 像 。 在 屏幕 上 显示 复杂 的 光 、 阴 
影 和 高 动态 范围 时 ， 会 碰 到 极端 范围 的 像素 贡献 值 计算 , 泻 染 (和 GPU) 使 用 浮 点 算数 计算 像 
素 的 颜色 ， 以 消除 可 见 的 锯齿 。 对 于 全 部 这 三 种 图 形 演 染 ， 由 于 每 一 个 都 使 用 独立 的 数据 ， 产 生 
独立 的 结果 ， 并 且 没 有 副作用 ， 因 而 很 多 程序 实例 可 以 作为 独立 的 并 行 线程 并 行 地 运行 。 独 立 的 
顶点 、 原 语 和 像素 进一步 使 得 在 不 同 规模 的 GPU 上 运行 的 相同 的 图 形 程序 可 以 并 行 地 处 理 不 同 
数量 的 顶点 、 原 语 和 像素 。 图 形 程序 因而 透明 地 扩展 到 了 具有 不 同 并 行 度 和 性 能 的 GPU 上 。 

所 有 这 三 种 逻辑 图 形 线程 的 用 户 程序 具有 一 个 公共 的 目标 高 层 语言 。 通 常 使 用 HLSL (high- 
level shading language) 和 Cg (C for graphics) 。 它 们 具有 和 C 语言 类 似 的 语法 和 一 系列 丰富 的 用 
于 矩阵 操作 、 三 角 学 、 插 值 、 纹 理 访问 和 过 渡 的 库 函 数 ， 但 它们 远 非 通常 的 计算 语言 ， 当 下 它们 
缺乏 常规 的 存储 嚣 访问、 指针 、 文 件 1/0 和 递 轨 。HLSL 和 Cg 假定 程序 存活 于 一 个 逻辑 图 形 流水 
线 中 ， 因 此 IO 是 隐 含 的 。 例 如 ， 一 个 像素 段 演 染 器 等 待 几何 法 线 和 多 个 纹理 坐标 (该 法 线 和 
坐标 由 上 游 的 固定 功能 段 使 用 顶点 值 插值 产生 ) ， 并 为 颜色 的 输出 参数 赋值 ， 将 其 传送 到 下 游 ， 
与 一 个 隐 含 (x, y) 位 置 的 像素 混合 。 

GPU 硬件 为 每 个 顶点 、 每 个 原 语 和 每 个 像素 段 ， 产 生 一 个 新 的 独立 线程 执行 顶点 、 几 何 或 
像素 泻 染 程序 。 在 视频 游戏 中 ， 大 量 的 线程 执行 像素 浑 染 程序 ， 因 为 视频 游戏 中 ， 有 上 比 顶点 多 
10 ~ 20 倍 或 者 更 多 的 像素 段 、 复 杂 的 灯光 和 阴影 ， 这 要 求 顶 点 泻 染 线程 中 具有 更 大 的 像素 比例 。 
图 形 演 染 程序 模型 驱使 GPU 体系 结构 在 众多 并 行 处 理 器 核 上 高 效 地 执行 数 千 个 独立 细 粒 度 线程 。 


A 3.4 像素 这 染 示例 


考虑 下 面 实 现 “环境 映射 ”展示 演 染 技术 的 Cg 像素 浑 染 程序 。 对 于 每 个 像素 线程 ， 这 个 党 
染 程 序 传递 5 个 参数 ， 包 括 采 样 表面 颜色 时 需要 的 2D 浮 点 纹理 图 像 坐标 和 一 个 反映 离开 表面 的 
视点 方向 的 3D 浮 点 向 量 。 另 外 三 个 “统一 ”参数 从 一 个 像素 实例 (线程) 到 另 一 个 不 发 生变 化 。 
谊 染 程序 在 两 幅 纹理 图 像 中 查找 颜色 : 2D 纹理 ， 用 来 进行 表面 颜色 访问 ; 3D 纹理 ， 访问 立方 体 映 
射 《 对 应 于 立方 体 六 个 面 的 六 幅 图 像 ) 以 获取 对 应 反射 方向 的 外 部 世界 颜色 。 然 后 ， 最 终 的 四 种 成 
分 〈《 红 、 绿 、 蓝 和 alpha) 浮 点 颜色 由 称 为 “lerp” 的 加 权 平均 或 线性 插值 函数 计算 得 出 


Void reflection'{ 


float 2 texCoorgd : TEXCOORDO ， 
float 3 reftlection dir:TEXCOORD], 
Out float4d color :COLOR ， 
uniform float shiny, 

uniform sampler2D surfaceMap, 


uniform samplerCUBE envMap) 


日 、 泻 染 程 序 (shader programme) : 对 图 形 数 据 ， 如 顶点 或 像素 段 ， 进 行 操作 的 一 个 程序 。 
已 ” 浓 染 语言 (shading language) ; 一 种 图 形 描述 语言 ， 通常 具有 一 个 数据 流 或 流 编程 模型 。 
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// 从 纹理 中 提取 表面 颜色 


float4 surfaceColor =texXx2D{(SurftaceMap ,七 eXCOOIOQ) : 


// 通过 采样 立方 体 映 射 获取 反射 颜色 


float4 reflectedColor =texCUBE (environmentMap, reflection dir); 


// 输出 是 这 两 个 颜色 的 加 权 平 均 


color= lerp(surfaceColor,reflectedColor, shiny)}): 

} 

尽管 这 个 泻 染 程序 只 有 3 行 的 长 度 ， 但 它 激活 了 很 多 GPU 硬件 。 对 每 一 个 纹理 的 取 操 作 ，GPU 纹 
理子 系统 进行 多 次 存储 器 访问 ， 以 采样 采样 坐标 附近 的 图 像 颜 A 
色 ， 然后 使 用 浮 点 过 滤 算 法 插值 产生 最 终结 果 。 多 线程 CPU 并 
行 执行 数 千 计 的 这 种 轻 量 级 的 Cg 像素 泻 染 线程 ， 深 度 交 叉 执行 
以 掩盖 纹理 取 操 作 和 存储 器 延 时 。 

Cg 使 程序 员 的 目光 聚集 到 一 个 单一 项 点 、 原 语 或 像素 ， 
这 些 在 CPU 中 作为 一 个 单一 的 线程 实现 ; 泻 染 程 序 透 明 地 
扩展 到 可 用 的 处 理 器 上 以 开发 线程 的 并 行 度 。 作 为 面向 具体 
应 用 的 语言 ，Cg 提供 了 一 系列 丰富 的 数据 类 型 、 函 数 库 和 
语言 结构 以 表达 不 同 的 泻 染 技术 。 

图 A-3-2 展示 了 使 用 分 段 像素 泻 染 泻 染 过 的 皮肤 。 由 于 在 
重新 显现 之 前 周围 光照 的 多 次 反射 ， 真 实 的 皮肤 与 油画 表现 出 
很 大 的 不 同 。 在 这 个 复杂 的 泻 染 中 ， 建 模 了 三 个 分 立 的 皮肤 层 ， 
每 个 都 有 唯一 的 表面 散射 行为 ， 以 使 皮肤 具有 可 视 的 深度 和 半 
透明 效果 。 散 射 可 以 通过 在 一 个 平面 纹理 空间 中 ， 使 用 比 绿色 | 
多 的 红色 模糊 、 上 比 绿色 少 的 蓝 色 模糊 的 模糊 卷 积 进行 建 模 。 经 Re 
过 编译 的 Cg 演 染 执行 1400 条 指令 以 计算 一 个 皮肤 像素 的 颜色 。 为 给 出 皮肤 的 可 视 深度 和 半 透明 效 果 像 

随 着 CPU 具有 超 高 的 浮 点 性 能 和 很 高 的 流 存储 带宽 用 
于 实时 图 形 运 算 ， 除 传统 的 图 形 应 用 外 ， 它 们 还 引起 了 其 他 帮 具 有 单独 的 表面 散 射 行为 。 它 执行 
具有 很 高 并 行 性 的 应 用 的 注意 。 首 先 ， 仅 在 将 一 个 应 用 表达 扣 信 以 这 名 华人 皮肤 像 家 股 的 红 、 绿 、 划 和 
成 图 形 演 染 算法 时 才 可 以 使 用 这 种 强大 的 能 力 , 但 这 种 
GPGPU 方法 常常 是 难 用 并 且 是 具有 局 限 的 。 现 在 ，CUDA 编程 模型 提供 了 使 用 C 编程 语言 开发 
GPU 可 扩展 高 性 能 浮 点 和 存储 带宽 的 一 个 更 为 简单 的 方法 。 


A 3.5 并 行 计算 应 用 编程 


CUDA、Brook 和 CAL 是 着 眼 于 数据 并 行 计算 而 非 图 形 的 GPU 编程 接口 。CAL (Compute Ab- 
straction Layer) 是 AMD GPU 的 一 个 低级 汇编 语言 接口 。Brook 是 一 个 适合 GPU 的 流 语言 ， 由 
Buck 等 2004 提出 。CUDA 由 NVIDIA [2007] 开发 ， 是 用 于 众 核 GPU 和 多 核 CPU 的 可 扩展 并 行 
编程 的 C 和 C++ 语言 的 扩展 。 下 面 根据 Nickolls、Buck、Garland 和 Skadron [ 2008 ] 的 一 篇 文章 
对 CUDA 编程 模型 进行 描述 。 

有 了 新 的 模型 ，GPU 在 数据 并 行 和 吞吐 量 计算 方面 胜 过 “他 人 ”， 除 图 形 应 用 外 ， 它 还 执行 
高 性 能 计算 应 用 。 

数据 并 行 问题 分 解 

为 了 将 大 的 计算 问题 有 效 地 映射 到 较 高 并 行 度 的 处 理 结构 上 ， 程 序 员 或 编译 器 将 问题 分 解 
成 可 以 并 行 求解 的 很 多 小 问题 。 例 如 ， 程 序 员 将 一 个 大 的 结果 数据 数组 划分 成 块 儿 ， 并 进一步 将 
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每 个 块 儿 划分 成 元 素 ， 这 样 ， 结 果 块 儿 可 以 独立 地 并 行 计算 ， 且 每 块 中 的 元 素 也 可 以 并 行 计 算 。 
图 A-3-3 展示 了 将 结果 数据 数组 分 解 成 块 的 
3 x2 网 格 ， 每 个 块 又 进一步 分 解 成 5 x3 的 元 素 
数组 。 两 级 的 并 行 分 解 自然 地 映射 到 GPU 结构 
上 : 并 行 多 处 理 器 计算 结果 块 和 并 行 线程 计算 
结果 元 素 。 

程序 员 编 写 计算 一 系列 结果 数据 网 格 的 程 
序 ， 将 每 个 结果 网 格 划 分 成 可 独立 并 行 计算 的 
粗 粒 度 的 结果 块 。 程 序 使 用 一 个 细 粒 度 并 行 线 步骤 2: 结果 数据 网 格 2 
程 数 组 对 每 个 结果 氛 进 行 计算 ， 在 线程 中 划分 
工作 ， 以 使 每 个 线程 计算 一 个 或 多 个 结果 元 素 。 La [| Ls -i 

“ 奖 (1,1) 


A. 3.6 使 用 CUDA 进行 可 扩展 并 行 编程 





顺序 
步骤 1: 






结果 数据 网 格 1 


块 块 块 
0. 0) E00) 1 2，0) 
块 块 块 
Sp 1， Le2， 1 
















元 素 元 素 元 素 元 素 元 素 | 


CUDA 可 扩展 编程 语言 模型 扩充 了 C 和 C++ (0, 0) (1, 0) (2, 0) (3, 0) (4, 0) 
语 吾 ， 以 便 在 高 并 行 多 处 理 器 ， 尤 其 是 CPU 上 ， 二 多 Lo 二 ee 
为 通用 应 用 开发 巨大 的 并 行 度 。CUDA 的 早期 经 \ a 
验 显示 ， 很 多 复杂 的 程序 可 使 用 一 些 易 理解 的 (0, 2) (1, 2) (2, 2) .C3, 2).(4, 2) 
抽 象 进行 表示 。 自 从 NVIDI A 在 2007 年 发 布 了 | A i 
CUDA ， 开 发 者 迅速 在 广泛 的 应 用 范围 内 开发 了 A-3-3 将 结果 数据 解 耦合 到 网 格 
可 扩展 的 并 行程 序 ， 包 括 地 震 数据 处 理 、 可 计 的 块 中 以 便 进行 并 行 计算 


算 化 学 、 线 性 代数 、 稀 疏 矩 阵 求解 、 排 序 、 查 找 、 物 理 建 模 和 可 视 计算 。 这 些 应 用 透明 地 扩展 到 
上 百 处 理 器 核 和 上 千 并 发 线程 上 。 具 有 Tesla 统一 图 形 和 计算 架构 (在 A.4 节 和 A.7 节 描述 ) 的 
NVIDIA GPU 运行 CUDA C 程序 ， 并 可 广泛 地 应 用 于 笔记 本 、PC、 工 作 站 和 服务 器 。CUDA 模型 
在 其 他 共享 内 存 并 行 处 理 结构 ， 包 括 多 核 CPU [Stratton ，2008] 上 也 是 可 用 的 。 

CUDA 提供 了 三 个 关键 的 抽象 一 一 层次 线程 组 、 共 享 的 内 存 和 柚 障 同步 一 一 为 一 个 层次 的 线 
程 的 传统 C 代码 提供 了 清晰 的 并 行 结 构 。 粗 粒度 数据 并 行 和 任务 并 行 中 的 多 级 线程 、 存 储 器 和 
同步 提供 了 细 粒 度 的 数据 并 行 和 线程 并 行 。 这 种 抽象 引导 程序 员 将 问题 划分 成 可 以 并 行 独立 求 
解 的 粗 粒 度 子 问题 ， 然 后 划分 成 可 以 并 行 解决 的 细 粒 度 片断 。 可 编程 模型 透明 地 扩展 到 数量 所 
大 的 处 理 器 核 上 : 一 个 经 过 编译 的 CUDA 程序 在 任意 数量 的 处 理 器 上 执行 ， 并 且 仅 运行 时 系统 需 
要 知道 物理 处 理 器 的 数量 。 

CUDA 范例 

CUDA 是 C 和 C ++ 编程 语言 一 个 小 的 扩展 。 程 序 员 编 写 一 个 串 行程 序 ， 调 用 并 行内 核 9， 
这 个 串 行 程序 可 以 是 一 个 简单 的 函数 或 整个 程序 。 内 核 在 一 系列 线程 间 并 行 交叉 执行 。 程 序 员 
将 这 些 线程 组 织 成 一 个 线程 块 层次 结构 和 线程 块 网 格 。 线 程 块 9 是 一 系列 可 以 通过 阻塞 同步 和 通 
过 私有 块 存储 空间 共享 存 取 进 行 相互 协作 的 并 发 线程 。 网 格 是 -系列 可 以 独立 执行 并 因此 并 行 
执行 的 线程 块 。 

再 用 一 个 内 核 时 ， 程 序 员 指定 每 块 中 的 线程 数 和 组 成 网 格 的 块 数 。 每 个 线程 在 它 的 线程 块 
中 给 定 一 个 唯一 的 线程 号 threaarax， 用 0,1,2,…,blockpim -1 标记 ， 每 个 线程 块 在 其 网 格 中 给 定 
一 个 唯一 的 块 胃 号 plockIGx。CUDA 支持 线程 块 包含 多 达 512 个 线程 。 为 方便 起 见 ， 线 程 块 和 网 


OCC 一 


@ 内核 (kemel) ; 适合 于 一 个 线程 的 程序 或 函数 ， 设 计 用 来 被 众多 线程 执行 。 
已 ”线程 块 (thread block) :执行 相同 线程 程序 并 相互 协作 以 计算 结果 的 一 系列 并 发 线程 
四 ”网 格 〈grid) : 执行 相同 内 核 程序 的 一 系列 线程 块 。 
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格 可 以 是 1, 2 或 3 维 , 通过 .x..y 和 .z 索 引 域 访问 。 

作为 并 行 编程 的 一 个 非常 简单 的 示例 ,假定 我 们 具有 两 个 向 量 x 和 y， 每 个 都 有 nn 个 浮 点 数 ， 
并 且 我 们 希望 对 一 些 标 量 值 4 计算 y=ax+y 的 结果 。 这 是 由 BLAS 线性 几何 库 定义 的 ， 被 称 
为 saxPY 的 内 核 。 图 A-3-4 展示 了 在 串 行 处 理 器 和 使 用 CUDA 的 并 行 两 种 情况 下 该 计算 的 C 代码 

_global 声明 指示 表明 该 程序 是 一 个 内 核 人 口 点 。CUDA 程序 运行 的 并 行内 核 具 有 扩展 函数 
调用 语法 : 

kernel <<<dimGrid,dimBlock >>> (parameter 1ist…) 
在 该 语法 中 ，aimcrid 和 aimBlock 是 类 型 为 dim3 的 三 元 素 向 量 ，dim3 分 别 指定 了 块 中 网 格 的 维 
度 和 线程 中 块 的 维度 。 如 未 指定 ， 上 默认 的 维度 为 1。 

在 图 A-3-4 中 ， 我 们 运行 一 个 具有 个 线程 的 网 格 ， 为 向 量 中 的 每 个 元 素 分 配 一 个 线程 ， 并 
在 每 个 块 中 放置 256 个 线程 。 每 个 单独 的 线程 计算 一 个 元 素 索 引 ， 该 索引 来 自 它 的 线程 和 块 ID， 
然后 在 相应 的 向 量 元 素 上 执行 要 求 的 计算 。 比 较 这 个 代码 的 串 行 和 并 行 版 本 ,我 们 发 现 它们 惊 
人 地 相似 。 这 代表 了 一 个 相当 普通 的 模式 。 串 行 代码 由 一 个 循环 组 成 ， 在 这 个 循环 中 ， 每 次 选 代 
与 其 他 迁 代 是 相互 独立 的 。 这 样 的 循环 可 以 被 机 械 地 转化 到 并 行内 核 : 每 个 循环 迭代 变 成 一 个 
独立 的 线程 。 通 过 为 每 一 个 输出 元 素 分 配 一 个 单一 线程 的 方法 ， 我 们 避免 了 在 将 结果 写 回 存储 
圳 时 在 线程 间 需 要 的 任何 同步 的 需求 。 


用 串 行 簿 环 计 算 y 了 =ax +y: 






void saxpy Serial (int n, float aipha, float *x, float *y) 
{ 





for (int i = 0;i < n; ++1i) 
y[i] = alpha *x[i]+ y[i]， 







} 
// 唤起 SAXPY 核 


Saxpy serial (ny 2.0, x, y); 


用 CUDA 并 行 计算 y =ax +y: 
_ global 

void saxpy parallel (int n, float alpha, float *x, float *y) 
{ 














int i = blockIdx.x*blockDim.x + threadIdx.x; 





if( i<n ) yt = alpha*x[i] + y[i]; 






} 

// 了 唤起 并 行 SAXPY 核 (每 块 256 个 线程 ) 

int nbljlocks = ln + 255) / 256; 

Saxpy parallel<<<nblocks, 256>>>{(n, 2.0, x, yY) 7 





图 A-3-4 串 行 C 代码 (上 ) 与 并 行 CUDA SAXPY 代码 ( 下) (参照 第 7 章 ) 
CUDA 并 行 线程 取代 C 品行 循环 一 一 每 个 线程 与 一 个 循环 重复 计算 的 结果 相同 。 并 行 代码 使 用 n 个 线程 计 

算出 n 个 结果 ,这 个 线程 以 256 个 线程 的 块 大 小 进行 组 织 。 

CUDA 内 核 的 文本 是 一 个 简单 的 用 于 顺序 执行 线程 的 C 晒 数 。 因 此 ，CUDA 内 核 文本 通常 书 
与 起 来 直截了当 ， 与 为 向 量 操作 编写 并 行 代码 相 比 ， 更 为 简单 。 并 行 度 被 清楚 、 直 接地 决定 ， 通 
过 在 运行 一 个 内 核 时 指定 一 个 网 络 的 维度 和 它 的 线程 块 。 

并 行 执行 和 线程 管理 是 自动 的 。 所 有 的 线程 创建 、 调度 和 终止 由 底层 系统 为 程序 员 处 理 。 实 
际 上 ， 一 个 Tesla 架构 的 GPU 直接 由 硬件 对 线程 进行 管理 。 一 个 块 中 的 多 个 线程 同时 执行 ， 并 且 
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或 许 会 在 同步 栅 障 ”处 通过 调用 syncthreads 0 原 语 进行 同步 。 这 保证 了 在 块 中 的 所 有 线程 均 到 
达 栅 障 之 前 ， 块 中 没有 可 以 继续 执行 的 线程 。 在 经 过 栅 障 之 后 ， 仍 可 以 保证 这 些 线程 可 以 看 到 由 
决 中 栅 障 之 前 的 线程 进行 的 所 有 存储 器 写 操作 。 因 此 ， 一 个 块 中 的 线程 可 以 通过 在 同步 栅 障 处 
读 、 写 每 个 块 中 共享 存储 名 的 方法 彼此 进行 通信 。 

由 于 一 个 块 中 的 线程 可 以 共享 存储 器 并 通过 栅 障 进行 同步 ， 它 们 将 存在 于 同一 个 物理 处 理 
种 或 多 处 理 侨 上 。 线 程 块 的 数量 甚至 大 大 超过 处 理 器 的 数量 。CUDA 线程 编程 模型 对 处 理 器 进行 
了 虚拟 ， 并 为 程序 员 提供 了 并 行 化 的 灵活 性 ， 该 并 行 化 可 在 任何 最 便利 的 粒度 上 进行 。 虚 拟 成 线 
程 和 线程 块 允 许 直 党 问题 的 分 解 ， 因 为 块 的 数量 可 以 通过 被 处 理 的 数据 大 小 而 不 是 系统 中 处 理 
才 的 数量 进行 指定 。 同 样 的 CUDA 程序 可 以 扩展 到 在 很 大 范围 内 变动 数量 的 处 理 器 核 上 。 

为 管理 这 个 处 理 元 素 的 虚拟 化 并 提供 可 扩展 性 ，CUDA 要 求 线程 块 可 以 独立 地 执行 。 必 须 能 够 
在 并 行 或 趾 行 方式 下 ， 以 任意 次 序 执行 块 。 不 同 的 抉 没 办 法 直接 通信 ， 尽 管 它们 可 以 调整 自己 的 行 
为 ， 通过 在 对 所 有 线程 可 见 的 全 局 存储 器 上 使 用 原子 存储 器 操作 ， 例 如 ， 通 过 原子 地 增加 队列 的 
指针 。 这 个 独立 的 要 求 允许 线程 块 可 以 以 任意 的 次 序 在 任何 数量 的 核 上 进行 调度 ， 使 得 CUDA 模型 
可 扩展 到 任意 数量 的 核 上 ， 也 可 以 扩展 到 许多 并 行 体系 结构 上 。 并 且 它 对 避免 可 能 的 死 锁 也 有 帮 
助 。 一 个 应 用 可 能 独立 或 相关 地 执行 多 个 网 格 。 给 定 充足 的 硬件 资源 的 话 ， 独 立 的 网 格 可 以 同时 执 
行 。 相 关 的 网 格 顺 序 地 执行 ， 在 它们 之 间 具 有 一 个 隐 含 的 内 核 间 的 要 障 ， 这 样 保证 了 第 一 个 网 格 中 
的 所 有 的 块 在 第 二 个 、 相 关 网 格 的 任何 块 开始 执行 之 前 都 已 经 结束 。 

线程 在 它们 执行 期 间 ， 可 能 会 对 多 个 存储 器 空间 中 的 数据 进行 访问 。 每 个 线程 具有 一 个 私 
有 的 局 部 存储 器 “。CUDA 用 局 部 存储 器 存储 那些 不 适合 在 线程 寄存 器 中 存储 的 线程 私有 变量 ， 
也 用 来 存储 堆栈 帧 和 进行 寄存 器 溢出 处 理 。 每 个 线程 块 具有 一 个 共享 存储 器 e， 对 块 中 的 所 有 线 
程 可 见 ， 且 与 块 具 有 相同 的 生命 周期 。 最 后 ， 所 有 的 线程 均 可 以 访问 同样 的 全 局 存储 器 2。 程 序 
在 共享 和 全 局 存储 器 中 声明 变量 9 使 用 _shared 和 gevice 限定 词 。 在 一 个 Tesla 结构 的 GPU 
上 ， 这些 存储 器 空间 对 应 物理 上 分 离 的 存储 器 ， 每 块 的 共享 存储 器 是 一 个 低 延 时 的 片上 RAM 
而 全 局 存储 器 存在 于 显卡 上 的 高 速 DRAM 中 。 

我 们 希望 共享 存储 器 是 靠近 每 个 处 理 器 的 低 延 时 存储 器 ， 很 像 一 级 cache。 因 此 ， 它 可 以 在 线 
程 决 的 线程 间 提供 高 性 能 通信 和 数据 共享 。 由 于 它 具 有 与 相应 的 线程 块 同样 的 生命 周期 ， 内 核 代码 
将 在 共享 变量 中 初始 化 数据 ， 使 用 共享 变量 进行 计算 ,并 将 共享 存储 器 中 的 结果 复制 到 全 局 存储 器 
中 。 顺 序 相关 网 格 中 的 线程 块 通过 全 局 存储 器 通信 ， 使 用 全 局 存储 器 读 输入 并 写 出 结果 。 

图 A-3-5 显示 了 关于 线程 、 线 程 块 和 线程 块 网 格 的 嵌 套 级 别 。 并 进一步 说 明了 相应 的 存储 器 
共享 级 : 局 部 、 共 享 和 全 局 存储 器 分 别 与 每 个 线程 、 每 个 线程 块 、 每 个 应 用 数据 共享 相对 应 。 

一 个 程序 通过 调用 CUDA 运行 时 的 画 数 ， 如 cudaMalloc () 和 cudaFree ()， 来 管理 对 内 核 可 见 
的 全 局 存储 器 空间 。 内 核 可 能 在 一 个 物理 分 离 的 设备 上 执行 ， 与 在 GPU 上 运行 内 核 的 情况 类 似 ， 
从 而 ， 应 用 程序 必须 使 用 cuaaMemcpy() 在 分 配 的 空间 和 主机 系统 存储 器 之 间 复制 数据 

CUDA 编程 模型 在 网 格 上 与 我 们 熟悉 的 单程 序 多 数据 8 (SPMD) 模型 相似 一 — 它 显 式 地 加 
速 了 并 行 性 ， 并 且 每 个 内 核 在 固定 数量 的 线程 上 执行 。 然 而 ，CUDA 与 SPMD 的 大 多 数 实现 相 


同步 概 障 (synchronization barrier) : 线程 在 同步 概 障 处 等 待 ， 直到 线程 块 中 的 所 有 线程 到 达 该 概 障 。 

原子 存储 六 操作 (atomic memory operation) : 一 个 存储 器 读 、 修 改 、 写 操作 序列 ， 它们 直到 执行 完成 不 被 任何 访 
局 部 存储 器 (local memory) ， 每 个 线程 的 局 部 存储 器 ， 被 该 线程 私有 。 

共享 存储 器 (shared memory) : 每 个 线程 块 存储 器 ， 被 块 中 的 所 有 线程 共享 。 

全 局 存储 器 (global memory) ;每 个 应 用 存储 器 ， 被 所 有 的 线程 共享 ， 

单程 序 多 数据 (single-program multiple data，SPMD ) : 并 行 编程 模型 的 一 种 网 格 ， 其 所 有 的 线程 执行 同样 的 程 
序 。 和 典型 地 ，SPMD 线程 通过 栅 障 同步 进行 协调 。 | 
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比 ， 更 为 灵活 ， 因 为 每 个 内 核 调用 动态 地 创建 一 个 新 的 网 格 ， 该 网 格 对 该 应 用 的 执行 步骤 来 说 ， 
具有 合适 数量 的 线程 块 和 线程 。 程 序 员 可 以 针对 每 个 内 核 选 用 适当 的 并 行 度 ， 而 不 必 将 计算 的 
所 有 阶段 设计 成 使 用 相同 数量 的 线程 。 图 A-3-6 展示 了 一 个 类 SPMD 的 CUDA 代码 序列 示例 。 它 
的 第 一 个 实例 kxernelF 是 在 一 个 3 x2 的 块 组 成 的 2D 网 格 上 ，2D 的 线程 块 由 5 x3 的 线程 组 成 。 
紧 接着 的 一 个 实例 kernelc 在 一 个 1D 的 网 格 上 ， 该 网 格 有 4 个 1D 的 线程 块 ， 每 个 1D 的 线程 块 
有 6 个 线程 。 由 于 xernelc 依赖 于 xernelF 的 结果 ， 它 们 被 一 个 内 核 间 的 同步 栅 障 所 隔离 。 


线程 
每 个 线程 的 局 部 存储 器 
线程 块 
每 个 块 的 共享 
存储 器 
网 必 顺序 


AdAAAAAAAA AAAAAA A A 





全 局 存储 器 








图 A-3-5 Nested 粒度 级 一 一 线程 、 线 程 块 和 网 格 一 一 具有 通信 存储 共享 级 一 局部、 共享 和 全 局 
每 个 线程 的 局 部 存储 器 为 该 线程 所 私有 。 每 个 块 的 共享 存储 为 块 中 的 所 有 线程 所 共享 。 每 个 应 用 全 局 存储 为 
所 有 的 线程 所 共享 。 


顺序 kernelF 2D 网 格 是 个 3 x 2 线程 块 ; 每 个 块 是 5 x 3 线程 
块 0, 0 块 1, 0 | 块 2, 0 


kemelF<<< (3,2),(5, 3) >>> (params); 


块 0, 1 块 1, 1 | 块 2, ] 


块 1, 1 
线程 0, 0 线程 1, 0 线程 2, 0 线程 3, 0 线 称 4. 0 


线程 0. 1 线程 1, 1 线程 2, 1 线程 3, 1 线程 4, ] 


a a and, , 所 nl, 
i si i 


A-3-6 kernelF 序列 在 2D 线程 块 的 一 个 2D 网 格 上 的 实例 化 ， 一 个 内 核 的 同步 栅 障 ， 
后 面 紧 趴 一 个 1D 线程 块 的 1D 网 格 上 的 kernel G 
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kemelG 1D 网 格 是 4 线程 块 每 个 块 是 6 个 线程 四 
块 1 ， 块 2 块 3 


kemelG<<4, 6>>>{params}; 





块 2 


i 


A-3-6 ( 续 ) 


线程 块 中 的 并 行 线程 表达 了 细 粒 度 的 数据 并 行 和 线程 并 行 。 网 格 中 独立 的 线程 块 表 达 了 粗 
粒度 的 数据 并 行 。 独 立 网 格 表达 了 粗 粒 度 任务 并 行 。 一 个 内 核 是 层次 结构 中 一 个 线程 的 简单 的 C 
代码 。 


A. 3.7 一 些 限制 


考虑 到 效率 ， 且 为 了 简化 实现 ，CUDA 编程 模型 具有 一 些 限制 。 线 程 和 线程 块 仅 能 通过 调用 
一 个 并 行内 核 创建 ， 而 不 能 在 一 个 并 行内 核 内 部 创建 。 这 和 需要 的 独立 线程 块 一 起 ， 使 得 使 用 一 
个 引入 较 小 运行 时 开销 的 简单 调度 器 执行 CUDA 程序 成 为 可 能 。 实 际 上 ，Tesla GPU 架构 实现 了 
线程 和 线程 块 的 硬件 管理 和 调度 。 

任务 级 并 行 可 以 在 线程 块 级 表示 ， 而 很 难 在 线程 块 中 表示 ， 因 为 线程 同步 概 障 在 块 中 的 所 
有 线程 上 操作 。 为 能 使 CUDA 程序 可 以 在 任意 数量 的 处 理 器 上 运行 ， 同 一 个 内 核 网 格 中 的 线程 块 
间 不 允许 存在 依赖 一 一 块 必须 独立 地 执行 。 由 于 CUDA 要 求 线程 块 独立 ， 并 能 以 任意 的 次 序 执 
行 ， 组 合 由 多 个 块 产生 的 结果 通常 必须 通过 在 一 个 新 的 线程 块 的 网 格 上 运行 第 二 个 内 核 来 完成 
《尽管 线程 块 可 能 在 对 所 有 线程 可 见 的 全 局 存储 器 上 使 用 原子 存储 器 操作 协调 它们 的 行为 例 
如 ， 通 过 原子 地 增加 队列 指针 ) 。 

当前 ， 递 归 函 数 调 用 在 CUDA 内 核 中 是 不 允许 的 。 在 大 规模 并 行内 核 中 ， 递 归 是 无 吸引 力 
的 ， 因 为 数 以 万 计 的 线程 提供 的 栈 空间 可 能 被 激活 ， 这 需要 足够 内 存 。 通 常 使 用 递归 表示 的 串 行 
算法 ， 如 快速 排序 ， 可 以 使 用 椒 套 数据 并 行 很 好 地 实现 ， 而 不 直接 使 用 递归 。 

为 支持 集成 了 一 个 CPU 和 一 个 GCPU， 且 都 有 各 自 的 存储 系统 的 异 构 系统 结构 ，CUDA 程序 
必须 在 主机 存储 器 和 设备 存储 器 之 间 复 制 数据 和 结果 。 通 过 使 用 DMA 块 传输 引擎 和 快速 互联 ， 
将 CPU-GPU 交互 和 数据 传输 的 开销 降 到 了 最 小 。 需 要 GPU 执行 的 足够 大 的 计算 密集 型 问题 比 数 
据 量 小 的 问题 在 加 速 分 摊 开 销 方面 要 好 。 


A. 3.8 体系 结构 隐 含 的 问题 


图 形 和 计算 的 并 行 编程 模型 使 得 GPU 体系 结构 与 CPU 体系 结构 相 比 变 得 更 为 不 同 。 驱 动 
GPU 处 理 器 体系 结构 改变 的 GPU 程序 的 主要 方面 有 ; 
。 细 粒 度数 据 并 行 的 广泛 使 用 : 泻 染 程序 描述 怎样 处 理 一 个 单一 像素 点 或 顶点 ，CUDA 程 
序 描述 怎样 计算 一 个 单独 的 结果 。 
” 高 的 线程 编程 模型 :一 个 演 染 线程 程序 处 理 一 个 单一 像 察 或 顶点 ， 一 个 CUDA 线程 程序 
可 能 产生 一 个 单一 结果 。 在 每 秒 60 帧 的 情况 下 ， 一 个 GPU 必须 为 每 帧 创建 并 执行 数 以 
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百 万 计 的 这 样 的 线程 程序 。 

。 可 扩展 性 : 在 额外 获得 了 处 理 器 后 ， 一 个 程序 必须 自动 地 提高 它 的 性 能 ， 而 不 用 重新 
编译 。 

。 密集 的 浮 点 〈 或 整数 ) 计算 。 

e 支持 高 吞吐 量 计算 。 


A.4 多 线程 的 多 处 理 器 架构 

为 面向 不 同 的 市 场 区 域 ，GPU 实现 了 可 扩展 数量 的 多 处 理 器 一 一 实际 上 ，GPU 是 由 多 个 处 
理 器 组 成 的 多 处 理 器 。 此 外 ， 每 个 多 处 理 器 是 高 度 多 线程 的 ， 高 效 地 执行 很 多 细 粒 度 顶 点 和 像素 
演 染 线程 。 比 较 基础 的 GPU 具有 两 到 四 个 多 处 理 器 ， 而 一 个 游戏 狂热 者 的 GPU 或 计算 平台 则 具 
有 数 十 个 多 处 理 器 。 本 节 着 眼 于 这 样 一 个 多 线程 多 处 理 器 的 体系 结构 ， 一 个 简化 版 的 NVIDIA 
Tesla 流 多 处 理 器 (SM) 在 A.7 节 描 述 。 

为 什么 使 用 一 个 多 处 理 器 ， 而 不 是 几 个 单独 的 处 理 器 ? 多 处 理 器 内 部 的 并 行 性 提供 了 高 性 
能 的 局 部 性 和 对 A. 3 节 中 描述 的 细 粒 度 并 行 编程 模型 进行 支持 的 扩展 多 线程 。 一 个 线程 块 中 的 
多 个 单个 线程 在 同一 个 多 处 理 器 内 一 起 执行 以 共享 数据 。 我 们 在 此 描述 的 多 线程 多 处 理 器 具有 8 
个 标量 处 理 需 核 ， 使 用 紧 耦 合 结构 ， 最 多 可 执行 高 达 S12 个 线程 (在 A.7 中 描述 的 SM 可 以 执行 
高 达 768 个 线程 ) 。 出 于 面积 和 功 耗 效率 的 考虑 ， 多 处 理 器 在 8 个 处 理 器 核 闻 共享 面积 较 大 的 复 
杂 单 元 ， 包 括 指令 cache 、 多 线程 指令 单元 和 共享 存储 器 RAM。 


A.4.1 大 规模 多 线程 


GPU 处 理 器 是 高 度 多 线程 的 ， 以 达到 几 个 目标 : 

。 掩 次 从 存储 器 装 人 和 从 DRAM 中 纹理 预 取 的 延 时 。 

。 支持 细 粒 度 并 行 图 形 演 染 编程 模型 。 

。 支持 细 粒 度 并 行 计算 编程 模型 。 

。 将 物理 处 理 器 虚拟 化 成 线程 和 线程 块 以 提供 透明 的 扩展 性 。 

。 简化 并 行 编程 模型 以 为 一 个 线程 编写 一 个 串 行 程序 。 

存储 器 和 纹理 读 取 延 迟 需要 数 百 个 处 理 器 时 钟 ， 由 于 典型 的 GPU 具有 小 的 流 cache 而 不 像 
CPU 那样 具有 大 的 工作 集 eache。 一 个 取 请 求 通常 需要 一 整个 DRAM 访问 延迟 加 上 互联 和 缓冲 延 
述 。 多 线程 使 用 有 用 的 计算 从 而 掩盖 了 延迟 在 一 个 线程 等 待 一 个 载 人 或 纹理 提取 完成 时 ， 
处 理 评 可 以 执行 其 他 的 线程 。 细 粒度 并 行 编程 模型 提供 了 数 千 个 可 保持 众多 处 理 器 忙碌 的 独立 
线程 ， 尽 管 对 于 单个 线程 来 说 还 可 以 看 到 很 长 的 存储 器 延迟 。 

一 个 图 形 项 点 或 像素 泻 染 程序 是 一 个 处 理 单个 顶点 或 像素 的 单一 线程 的 程序 。 相 似 地 ， 一 
个 CUDA 程序 是 为 一 个 单一 线程 计算 结果 的 一 个 C 程序 。 图 形 和 计算 程序 例 化 了 众多 并 行 线程 
以 泻 染 复 杂 图 像 并 计算 大 的 结果 数组 。 为 动态 地 平衡 轮换 的 顶点 和 像素 泻 染 线程 负载 ， 每 个 多 
处 理 器 间 时 执行 多 个 不 同 的 线程 程序 和 不 同类 型 的 演 染 程序 。 

为 文 持 独 立 的 顶点 、 原 语 、 图 形 泻 染 语言 的 像素 编程 模型 和 CUDA C/C ++ 的 单线 程 编程 模 
型 ， 每 个 CPU 线程 有 它 自 己 的 私有 寄存 器 、 私 有 存储 器 、 程 序 计数 器 和 线程 执行 状态 ， 并 且 可 
以 执行 一 个 独立 的 代码 路 径 。 为 有 效 地 执行 数 百 个 并 发 轻 量 级 线程 ，GPU 多 处 理 器 是 硬件 多 线 
程 的 一 一 它 使 用 硬件 管理 和 执行 数 百 个 并 发 线程 ， 没 有 调度 开销 。 线 程 块 中 的 并 发 线程 可 以 在 
一 个 姐 障 处 使 用 一 条 简单 的 指令 进行 同步 。 轻 量 级 的 线程 创建 、 零 开销 线程 调度 和 快速 的 棚 隧 
同步 有 效 地 支持 极 细 粒 度 的 并 行 。 
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A. 4.2 多 处 理 器 体系 结构 


一 个 标准 的 图 形 和 计算 多 处 理 器 执行 顶点 、 几 何 和 像素 段 泻 染 程序 ， 还 有 并 行 计算 程 序 。 如 
图 A-4-1 所 示 ， 多 处 理 器 的 例子 有 8 个 标量 处 理 器 〈(SP) 核 ， 每 个 核 都 有 一 个 大 的 多 线程 寄存 器 
文件 (RF) ， 两 个 特殊 功能 单元 (SFU) ， 一 个 多 线程 指令 单元 ， 一 个 指令 cache， 一 个 只 读 常 量 
cache 和 一 个 共享 存储 器 。 


多 线程 多 处 理 器 


|。 共享 存储 器 





存储 器 接口 


A-4-1 具有 8 个 标量 处 理 器 (SP) 核 的 多 线程 多 处 理 器 
8 个 SP 核 每 个 都 有 一 个 大 的 多 线程 寄存 器 文件 (RF) ， 并 共享 一 个 指令 cache， 多 线程 指令 发 射 单元 ， 常 
量 cache， 两 个 特殊 功能 单元 (SFU) ， 互 联网 络 和 一 个 多 体 共享 存储 器 。 


16 KB 的 共 序 存储 器 保存 着 图 形 数据 缓存 和 共享 计算 数据 。 使 用 _sharea 声明 的 CUDA 恋 
最 存 放 在 共享 存储 器 中 。 为 映射 逻辑 图 形 流水 线 负载 多 次 通过 多 处 理 器 ,如 A. 2 节 说 明 的 那样 ， 
顶点 、 几 何 和 像素 线程 具有 独立 的 输入 和 输出 缓存 ， 且 负载 的 到 达 和 离开 独立 于 线程 的 执行 。 

每 个 SP 核 包 含 标量 整数 和 浮 点 算数 单元 ， 这 些 单元 执行 了 大 部 分 的 指令 。SP 是 硬件 多 线程 
的 ， 支 持 高 达 64 个 线程 。 每 个 流水 化 的 SP 核 中 ， 每 个 线程 在 一 个 时 钟 周期 中 执行 -条 标量 指 
令 ， 在 不 同 的 GPU 产品 中 ， 时 钟 范围 为 1.2 ~ 1.6 GHz。 每 个 SP 核 都 有 一 个 大 的 寄存 器 文件 
(RF) ， 含 有 1024 个 通用 32 位 寄存 器 ， 根 据 它 所 分 配 的 线程 进行 划分 。 程 序 声明 它们 的 寄存 器 
需求 ， 典 型 地 为 每 线程 分 配 16 ~ 64 个 标量 32 位 寄存 器 。SP 可 以 同时 运行 许多 使 用 减少 寄存 器 
的 线程 ， 或 较 少 使 用 较 多 寄存 器 的 线程 。 编 译 器 优化 寄存 器 分 配 以 在 溢出 寄存 器 和 减少 线程 的 
代价 之 间 进行 平衡 。 像 素 演 染 程序 常常 使 用 16 个 或 更 少 的 寄存 器 ， 使 每 个 SP 运行 高 达 64 个 像 
素 泻 染 线程 以 掩盖 长 延迟 纹理 预 取 。 编 译 CUDA 程序 通常 每 个 线程 需要 32 个 寄存 器 ， 将 每 个 SP 
限制 到 32 个 线程 ， 这 又 限制 了 在 该 例 的 多 处 理 器 中 每 个 线程 块 中 这 样 的 内 核 程序 只 能 有 256 个 
线程 ， 而 不 是 它 的 最 大 数量 ，512 个 线程 。 

流水 的 SFU 执行 完成 特殊 功能 的 线程 指令 ， 并 从 原始 顶点 属性 插值 像素 属性 。 这 些 指令 可 
以 与 该 SP 上 的 指令 同时 执行 。SFU 将 在 稍 后 描述 。 
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多 处 理 器 通过 纹理 接口 在 纹理 单元 上 执行 纹理 预 取 指令 ， 并 使 用 存储 龙 接 口 进 行 外 部 存储 
器 的 装 入 、 存 储 和 原子 访问 指令 。 这 些 指 令 可 以 与 该 SP 上 的 指令 同时 执行 。 共 享 存储 器 的 存 取 ， 
通过 SP 处 理 器 和 共享 存储 体 间 的 一 个 低 延 时 的 互联 网 络 进行 。 


A 4.3 单 指令 多 线程 (SIMT) 


为 管理 和 执行 数 百 个 线程 以 高 效 地 运行 多 个 不 同 的 程序 ， 多 处 理 器 使 用 单 指令 多 线程 
( SIMT)e 架 构 。 它 通过 调用 warp 创建 、 管 理 、 调 度 和 执行 并 行 线程 组 中 的 并 发 线程 。 术 语 
warp2 源 于 第 一 个 并 行 线程 技术 weaving。 图 A-4-2 中 的 照片 通过 一 个 织 布 机 展示 了 并 行 线程 的 -- 
个 warp。 这 个 示例 多 处 理 器 使 用 了 具有 32 个 线程 大 小 的 SET 和 
SIMT warmp ， 在 4 个 时 钟 内 , 在 8 个 SP 核 中 的 每 个 核 上 执行 -gr SS 
4 个 线程 。A. 7 节 中 描述 的 Tesla SM 多 处 理 器 也 使 用 具有 32 
个 并 行 线程 大 小 的 warp， 考 虑 到 效率 ， 每 个 SP 核 在 大 量 的 
像素 线程 和 计算 线程 中 执行 4 个 线程 。 线 程 块 由 一 个 或 多 个 
warp 组 成 。 

这 个 示例 SIMT 多 处 理 器 管理 着 一 个 由 16 个 warp 组 成 
的 池 ， 共 512 个 线程 。 组 成 warp 的 单个 并 行 线程 具有 相同 
的 类 型 ， 在 同一 个 程序 地 址 一 起 启动 ， 但 可 以 自由 地 进行 
分 支 并 独立 地 执行 。 在 每 条 指令 的 发 射 时 间 ，SIMT 多 线 
程 指令 单元 选择 一 个 准备 好 执行 它 的 下 一 条 指令 的 wam， 
然后 将 那 条 指令 发 射 到 该 warp 的 活动 线程 上 。 一 条 SIMT 
指令 被 同时 广播 到 warp 中 的 活动 并 行 线程 上 ; 由 于 独立 的 
分 支 或 预测 ， 单 个 线程 或 许 是 非 活 动 的 。 在 这 个 多 处 理 器 
中 ， 每 个 SP 标量 处 理 器 核 使 用 4 个 时 钟 为 一 个 warp 中 的 
4 个 单独 线程 执行 一 条 指令 ， 反 映 了 war 线程 和 核 的 4:1 
比例 。 

SIMT 处 理 器 结构 与 单 指令 多 数据 设计 类 似 ， 都 是 允许 
一 条 指令 在 多 个 数据 通道 上 执行 ， 但 不 同 的 是 ，SIMT 应 用 
一 条 指令 到 多 个 独立 的 并 行 线程 上 ， 而 不 仅 是 到 多 个 数据 通 。 图 A-4-2 SIMT 多 线程 warp 调度 
路 。SIMD 处 理 器 的 一 条 指令 控制 一 个 多 条 数据 通路 一 起 组 上 wn 各 总 二 并 同步 地 向 组 
成 的 向 量 ， 而 SIMT 处 理 器 的 一 条 指令 控制 一 个 单独 的 线 个 warp 是 独立 的 ， 调度 器 每 次 可 以 选择 一 
程 ， 出 于 对 效率 的 考虑 ，SIMT 指令 单元 向 独立 并 行 线程 组 个 不 同 的 warp。 

成 的 wrap 发 射 一 条 指令 。SIMT 处 理 器 运行 时 在 线程 间 挖 据 数据 级 并 行 ， 与 超标 量 处 理 器 运行 时 
在 指令 间 挖 据 指 令 级 并 行 类 似 。 

当 warp 中 的 所 有 线程 具有 相同 的 执行 路 径 时 ， 一 个 SIMT 处 理 器 就 获得 了 全 部 的 效率 和 性 
能 。 如 果 warp 的 线程 通过 一 个 依赖 数据 的 条 件 分 支 运行 于 不 同 的 执行 路 径 ， 则 按照 每 个 分 支 路 
径 顺序 执行 ， 当 全 部 路 径 完 成 时 ， 线 程 回 到 相同 的 执行 路 径 。 对 于 等 长 的 路 径 ， 运 行 让 else 代码 
区 不 同 路 径 的 效率 为 50% 。 多 处 理 器 使 用 一 个 分 支 同 步 栈 管理 独立 的 分 支 和 聚集 线程 。 不 同 的 
warp 以 全 速 独立 执行 ， 而 不 考虑 它们 是 在 执行 普通 的 还 是 分 离 的 代码 路 径 。 结 果 就 是 ，SIMT 
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加 ” 单 指令 多 线程 (single-instruction multiple-thread，SIMT) : 应 用 一 条 指令 到 多 个 独立 的 并 行 线程 上 的 一 种 处 理 器 
结构 。 
已 ”warp: 在 SIMT 结构 下 ， 一 起 执行 相同 指令 的 并 行 线程 集 。 


附录 A 图形 和 计算 GPU . 457 


GPU 在 分 支 代码 方面 与 早期 的 CPU 相 比 ， 明 显 地 更 具 效 率 和 有 灵活 性 ， 因 为 它们 的 warp 比 先前 
GPU 中 的 SIMD 宽度 要 做 得 多 。 

与 SIMD 向 量 结构 相对 的 是 ，SIMT 使 程序 员 能 够 为 单独 的 独立 线程 编写 线程 级 并 行 代 
码 ， 也 可 以 为 众多 同样 的 线程 编写 数据 并 行 代码 。 为 了 正确 地 编程 ， 程 序 员 可 以 从 本 质 上 
忽略 warp 的 SIMT 执行 属性 ; 然而 ， 只 要 留意 到 代码 很 少 要 求 warp 中 的 线程 进行 分 支 ， 就 
可 以 获得 实质 的 性 能 提升 。 实 际 上 ， 这 和 与 传统 代码 中 的 缓存 行 是 类 似 的 : 在 为 正确 性 而 进 
行 变 计时 ， 组 人 存 行 可 以 被 安全 地 忽略 ， 但 在 为 峰值 性 能 进行 设计 时 ， 就 必须 在 代码 结构 中 
进行 考虑 。 


A. 4.4 SIMT warp 执行 和 分 支 


独立 打包 的 SIMT 调度 方法 比 先前 GPU 结构 的 调度 方法 更 具 灵 活性 。 一 个 warp 由 相同 类 型 
的 并 行 线程 组 成 顶点、 几何 、 像 素 或 计算 。 像 素 段 泻 染 处 理 的 基本 单元 是 被 作为 4 个 像素 泻 染 
线程 实现 的 2 x2 的 像素 方块 。 多 处 理 器 控制 器 将 像素 块 打 包 到 warp 中 。 同 样 ， 多 组 的 顶点 和 原 
语 打 包 到 多 个 warp 中 ， 而 将 计算 线程 打包 到 一 个 warp 中 。 一 个 线程 块 包含 一 个 或 多 个 warp。 
SIMT 设计 在 一 个 warp 的 多 个 并 行 线程 间 有 效 地 共享 取 指 和 发 射 单元 ， 但 需要 激活 全 部 warp 中 的 
线程 以 获得 最 高 的 效率 。 

这 种 统一 的 多 处 理 器 调度 和 多 warp 类 型 的 同时 执行 ， 使 得 可 以 同时 执行 顶点 和 像素 warp。 
由 于 每 个 处 理 器 核 有 四 个 线程 通道 ， 它 的 warp 调度 以 比 处理 器 时 钟 频率 稍 低 的 频率 运行 。 在 每 
个 调度 周期 期 间 ， 它 选择 一 个 warp 执行 一 条 SIMT warp 指令 ， 如 图 A-4-2 中 所 示 。 一 条 已 发 射 的 
warp 指令 被 打包 成 四 组 八 个 线程 ， 在 四 个 处 理 器 周期 上 执行 。 处 理 器 流水 线 完成 每 条 指令 需要 
几 个 时 钟 的 延迟 。 如 果 活 动 warp 的 数量 是 每 个 warp 执行 流水 线 延 时 的 数 倍 ， 程 序 员 可 以 忽略 流 
水 线 延 时 。 对 于 这 样 的 多 处 理 器 ， 八 个 warp 的 罗 宾 环 ， 在 同一 warp 的 连续 指令 间 的 调度 周期 为 
32 个 时 钟 周期 。 如 果 程序 可 以 在 每 个 多 处 理 器 上 保持 256 个 线程 活动 ， 多 至 32 个 时 钟 周 期 的 指 
令 延 迟 可 以 从 单个 顺序 线程 中 隐藏 。 然 而 ， 具 有 较 少 活动 warp 的 话 ， 处 理 器 的 流水 线 深度 将 变 
得 很 明显 ， 并 且 可 能 导致 处 理 器 停顿 。 

一 个 设计 中 的 挑战 性 问题 是 实现 不 同 warp 程序 和 程序 类 型 动态 混合 的 零 开销 warp 调度 。 指 
令 调 度 器 必须 每 四 个 时 钟 选择 一 个 warp， 以 便 每 个 时 钟 为 每 个 线程 发 射 一 条 指令 ， 相 当 于 每 个 
核 的 IPC 是 1。 由 于 warp 是 独立 的 ， 仅 相同 warp 的 顺序 指令 间 存 在 依赖 。 调度 器 使 用 一 个 依靠 
寄存 器 的 记分 板 来 描述 warp ，warp 的 活动 线程 准备 好 执行 一 条 指令 。 它 按 优先 级 区 分 所 有 这 些 
就 绪 的 线程 ， 并 为 发 射 选择 一 个 优先 级 最 高 的 。 划 分 优先 级 必须 考虑 warp 的 类 型 、 指 令 类 型 和 
要 求 ， 保 证 对 所 有 的 活动 warp 是 公平 的 。 


A.4.5 管理 线程 和 线程 块 


多 处 理 器 控制 器 和 指令 单元 管理 线程 和 线程 块 。 控 制 器 接收 工作 请 求 、 输入 数据 并 负责 
共享 资源 访问 的 仲裁 ， 包 括 纹理 单元 ， 存 储 器 访问 路 径 和 1/O 路 径 。 对 于 图 形 负载 ， 它 创建 
并 同时 管理 三 种 类 型 的 图 形 线程 : 顶点 、 几 何 和 像素 。 每 个 图 形 任务 类 型 具有 独立 的 输入 和 
输出 路 径 。 它 累积 每 个 这 样 的 输入 工作 类 型 ， 将 其 打包 成 执行 同样 线程 程序 的 并 行 线程 的 
SIMT warp。 它 分 配 一 个 空闲 warp， 为 warp 线程 分 配 寄存 器 ， 并 启动 warp 在 多 处 理 器 中 的 执 
行 。 每 个 程序 声明 各 自 的 程序 寄存 器 命令 ; 仅 在 控制 器 可 以 为 一 人 warp 线程 分 配 所 请 求 的 寄 
存 器 数量 时 ， 控 制 器 才 启动 该 warp。 当 warp 的 所 有 线程 退出 时 ， 控制 器 取出 结果 并 释放 warp 
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的 寄存 器 和 资源 。 

控制 器 创建 协作 线程 组 (CTA)” ， 它 以 一 个 或 多 个 并 行 线程 warp 的 形式 实现 了 CUDA 线程 
块 。 当 控制 器 可 以 创建 所 有 CTA warp 并 分 配 所 有 CTA 资源 时 ， 它 创建 一 个 CTA。 除 线程 和 寄存 
骨 外 ， 一 个 CTA 还 需要 为 其 分 配 共享 存储 器 和 栅 障 。 程 序 声明 它 所 需要 的 空间 ， 控 制 器 将 进行 
等 待 ， 直 到 在 运行 CTA 前 ， 它 可 以 分 配 这 些 空间 。 然 后 它 以 warp 的 调度 速率 创建 CTA warp， 以 
便 CTA 程序 以 多 处 理 器 全 部 的 性 能 立即 开始 执行 。 控 制 器 监控 何 时 一 个 CTA 的 所 有 线程 均 已 退 
出 ， 并 释放 CTA 共享 资源 和 它 的 warp 资源 。 


A. 4. 6 ”线程 指令 


SP 线程 处 理 器 为 单个 线程 执行 标量 指令 ， 不 像 早 前 的 GPU 向 量 指令 结构 ， 为 每 个 顶点 或 
像素 泻 染 程 序 执行 由 四 部 分 组 成 的 向 量 指 令 。 顶 点 程序 通常 计算 (x，y，z，w) 位 置 向 量 ， 
而 像素 泻 染 程序 计算 ( 红 , 绿 ， 蓝 ，alpha) 颜色 向 量 。 然 而 ， 演 染 程序 正 变 得 更 长 ， 使 用 更 
多 标量 ， 完 全 占据 、 甚 至 占用 较 早 GPU 的 四 部 分 组 成 的 向 量 结构 中 的 两 个 正 变 得 更 为 困难 。 
实质 上 ，SIMT 结构 使 32 个 独立 的 像素 线程 并 行 ， 而 非 一 个 像素 中 的 四 个 向 量 组 成 部 分 并 行 。 
在 CUDA C/C++ 程序 中 ,每 个 线程 都 具有 占 主 导 地 位 的 标量 代码 。 先 前 的 GPU 使 用 向 量 打包 
(例如 ， 组 合 工 作 中 的 子 向 量 以 提高 效率 )， 但 这 使 得 调度 硬件 和 编译 器 都 变 得 复杂 。 标 量 指 
令 更 为 简单 ， 并 且 易 于 编译 。 纹 理 指 令 仍旧 是 基于 向 量 的 ， 接 受 一 个 源 坐 标 向 量 并 返回 一 个 
过 滤 后 的 颜色 向 量 。 

为 文 持 具有 不 同 二 进 制 微 指令 格式 的 多 样 CPU， 高 层 图 形 和 计算 语言 编译 器 产生 中 间 汇 纺 
级 指令 (如 ，Direct3D 向 量 指 令 或 PTX 标量 指令 ) ， 然 后 对 其 进行 优化 并 将 其 转化 为 二 进 制 GPU 
微 指 令 。NVIDIA PTX (并 行 线程 执行 ) 指令 集 定义 【2007] 为 编译 器 提供 一 个 稳定 的 目标 ISA， 
并 且 以 改进 的 二 进 制 伪 指 令 集 架 构 在 几 代 的 GPU 上 提供 兼容 性 。 优 化 器 很 容易 地 将 Direct3D 四 
量 指令 扩展 到 多 条 标量 二 进 制 微 指令 。PTX 标量 指令 与 标量 二 进 制 微 指 令 的 转化 几乎 是 一 对 一 
的 ， 尽管 一 些 PTX 指令 扩展 到 多 条 标量 二 进 制 微 指令 ， 多 条 PTX 指令 可 以 折合 进 一 条 二 进 制 微 
指令 。 由 于 中 间 汇 编 级 指令 使 用 虚拟 寄存 器 ， 优 化 器 分 析 数 据 依赖 并 分 配 真 实 寄存 器 。 优化 器 消 
除了 无 效 代码 ， 在 可 行 时 将 多 条 指令 折 亚 到 一 起 ， 并 优化 SIMT 分 支 转移 和 汇集 点 。 


A. 4.7 ”指令 集 架 构 (ISA) 


这 里 描述 的 线程 指令 集 架构 是 一 个 简化 版 的 Tesla 结构 PTX 的 ISA， 一 个 基于 寄存 器 的 标量 
指令 集 ， 包含 浮 点 、 整数 、 逻辑 、 转化 、 特殊 功能 、 流 控 制 、 存储 器 访问 和 纹理 操作 。 图 A-4-3 
列 出 了 基本 的 PTX GPU 线程 指令 ; 详细 资料 可 参考 NVIDIA PTX 说 明 [2007] 。 指 令 格 式 是 : 


opcode.type d,a,b,c:; 


”9 是 目的 操作 数 ， 











5 是 源 操作 数 ， .type 是 以 下 之 一 ， 


类 型 ee 


无 类 型 的 位 8,16,32 和 64 位 .b8,.b16,.b32,.b64 
无 符号 的 整 型 8.16.32 和 64 位 .U8,.u16,.u32,.u64 


有 符号 的 整 型 8,16,32 和 64 位 .S8,.S16,.S32 .564 


ET SB 


昌 ”协作 线程 组 (cooperative thread array，CTA) :一 组 执行 相 同 的 线程 程序 且 可 以 协作 计算 出 一 个 结果 的 并 发 线程 。 
一 个 GPU CTA 实现 一 个 CUDA 线程 块 。 
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基本 PTX GPU 线 程 指 今 








sub.ppe |sub.f32 d, a, b 
mlppe [mul.f32 d, a, b 
Imadiiype |mad.f32 dd, a, Pb, Cc 
divppe |div.f32 d, a, b 
remype |rem.u32 dd, a, b 
[abs ope |abs.f32 d, a 
[rege |neg.f32 a, a 


| min.bpe |min.f32 dd a b = (a < bj? a:b; : } 
maxype [max.f32 d, a, b d = (a > b)? a:b; | 正常 浮 点 数 选 择 


setp.1t.f32 p, a, b Ip- la<b); | 比较 和 设置 断言 
numeric .cmp =eq, ne, lt, le, gt, ge;unordered cmp = equ, neu, ltu, leu, gtu, geu, num, nan 
mov.b32 d, a 
. Seljp.f32 d, a, b, p 

Cvt .£32.532 d, a = Convert (a}; 

Special .type = .£32 (some .£64) 

rpype |rep.f32d4a | 
特殊 功能 

logic.type = .pred, .b32, .bé64 


涟 可 

shrome |shr.s32 qd, ab |a-axb | ，，， 

memory .space = .global, .shared, ,local, .Const; .ype = ,b8, .u8, .s8, .bl6, .b32, .1 

存储 器 [toxnd.dop.bype |tex.29.v4.f32.f32 Ga b 

访问 atom.global.add.u32 d,[a], b atomic 1 d= *a:; 
atom.global.cas,.b32 d,[a], b, c *a = op(*a, bb) } 


atom .op =and, or, xor, add, min, max, exch, cas; .SPpc = .global; .type = .b32 


| branch &p bra target if {Pp} goto 
| target; 
| 控制 流 


™ 
™ 
™ 
> 
oy 


arithm r 
add type add.f32 d, a, 


etic Hype = S32, .U32, .fF32, .S64, .u64, .£64 


g |a 
|2 
殷 二 
RR 
总 
中 
这 
eV 
hb 
eg 












C 逻 辑 非 


[08 
























call {ret), func, (params) ret = func (params); 


A-4-3 ”基本 PTX GPU 线程 指令 


源 操作 数 是 寄存 器 中 32 位 或 64 位 的 标量 值 ， 一 个 立即 数 或 一 个 常量 ; 断言 操作 数 是 1 位 的 
布尔 值 。 除 写 存储 器 以 外 ， 目 的 操作 数 是 寄存 器 。 使 用 ep 或 elp 前 级 对 指令 进行 断言 ， 其 中 。。 
是 一 个 断言 寄存 器 。 存 储 器 和 纹理 指令 传输 由 2 ~4 个 部 分 组 成 的 最 高 可 达 128 位 的 标量 或 向 量 。 
PTX 指令 指定 了 一 个 线程 的 行为 。 

。 PIX 算术 指令 在 32 位 或 64 位 浮 点 、 有 符号 整 型 和 无 符号 整 型 类 型 上 操作 。 近 来 的 GPU 
支持 64 位 双 精 度 浮 点 ， 参 考 A.6 节 。 在 当前 的 GPU 中 ，PTX 64 位 整 型 和 处 辑 指令 被 转换 成 
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两 条 或 更 多 的 执行 32 位 操作 的 二 进 制 微 指令 。GPU 特殊 功能 指令 仅 限于 32 位 的 浮 点 。 线 程 
控制 流 指 令 是 条 件 branch、 阵 数 call 和 return， 线 程 exit 和 bar. sync (barrier synchroniza- 
tion) 。 条 件 分 支 指令 ap bra target 使 用 断言 寄存 器 p (或 !1p) 确定 线程 是 否 进行 分 支 ， 断 言 
寄存 器 由 先前 通过 比较 和 设置 断言 指令 setp 设置 。 其 他 指令 同样 可 以 根据 断言 寄存 器 是 真 还 
是 假 进 行 断 言 。 

存储 器 访问 指令 z 

tex 指令 获取 并 过 滤 通 过 纹理 子 系统 的 从 存储 器 中 1D、2D 和 3D 纹理 矩阵 采样 得 到 的 纹理 。 
纹理 读 取 通 常 使 用 插值 产生 的 浮 点 坐标 来 定位 一 个 纹理 。 一 旦 一 个 图 形 像素 泻 染 线 程 计 算出 它 
的 像素 段 颜 色 ， 光栅 操 作 处 理 器 将 该 颜色 与 指派 的 (x，y) 像素 位 置 的 像素 颜色 进行 混合 ， 并 
将 最 终 颜色 写 人 存储 器 。 

为 了 文 持 计 算 和 CAC ++ 语 言 的 需要 ，Tesla PTX ISA 实现 了 存储 器 存 取 指令 。 它 们 使 用 由 寄 
存 催 寻 址 的 整 型 字 节 加 上 偏 移 地 址 ， 使 传统 的 编译 代码 优化 变 得 容易 。 存 储 器 存 取 指令 在 处 理 
咒 中 是 很 普遍 的 ， 但 在 Tesla 架构 GPU 中 却 是 一 种 重要 的 新 能 力 ， 因 为 之 前 的 GPU 仅 提供 图 形 
API 需要 的 纹理 和 像素 访问 。 - 

为 进行 计算 ， 存 取 指 令 访问 三 个 可 读 写 的 存储 器 空间 ， 这 三 个 空间 实现 了 A. 3 节 中 对 应 的 
CUDA 存储 器 空间 : 

。 局 部 存储 器 ， 存 储 每 个 线程 可 私有 寻 址 的 临时 数据 (在 外 部 DRAM 中 实现 ) 。 

。 共享 存储 器 ， 存 储 被 同一 个 CTA/ 线 程 块 中 协作 线程 所 共享 的 低 延 时 访问 数据 (在 片上 

的 SRAM 中 实现 )。 | 

。 全 局 存储 器 ， 存 储 被 一 个 计算 应 用 中 的 所 有 线程 所 共享 的 大 批 数据 〈 在 外 部 DRAM 中 

实现 ) 。 

存储 器 存 取 指令 J1QgJebal、5st.9lobal 、1dGshared、 st.shared、1ld.local 利 St.l]ocal 访 问 全 
局 、 共 享 和 局 部 存储 器 空间 。 计算 程序 使 用 快速 机 障 同步 指令 bar.sync 来 同步 CTA/ 线 程 块 中 通 
过 共享 和 全 局 存储 器 互相 通信 的 线程 。 

为 提高 存储 器 带宽 和 减 小 开销 ， 当 地 址 落 进 同 一 块 中 且 符 合 对 齐 规则 时 ， 局 部 和 全 局 存 取 
指令 把 同一 SIMT warp 中 的 单独 的 并 行 线程 请 求 合并 成 一 个 存储 块 请 求 。 合并 存储 器 请 求 与 单独 
线程 的 分 立 请 求 相 比 性 能 得 到 了 显著 提升 。 多 处 理 器 巨大 的 线程 数量 ， 加 之 对 众多 load 请 求 的 
高 效 支 持 ， 帮 助 掩盖 了 在 外 部 DRAM 中 实现 的 局 部 和 全 局 存储 器 的 load-to-use 延迟 。 

最 近 的 Tesla 架构 GPU 通过 atomop.u32 指令 ， 也 为 存储 器 提供 了 有 效 的 原子 存储 器 操作 ， 包 
括 整 型 操作 add .min.max、and\or、xor、exchange 和 cas (compare- and- swap) 操作 ， 使 并 行 简化 和 
并 行 数据 结构 管理 变 得 容易 。 

用 于 线程 通信 的 机 障 同 步 

快速 概 障 同步 允许 CUDA 程序 通过 简单 的 调用 ”syncthreads( ); 作为 每 个 内 部 线程 通信 步 
又 的 一 部 分 ， 利 用 共享 存储 器 和 全 局 存储 器 频繁 地 通信 。 同步 的 内 在 函数 产生 单一 的 一 
条 bar.sync 指 令 。 可 是 ， 在 每 个 CUDA 线程 块 所 具有 的 最 高 512 个 线程 之 间 实 现 快 速 的 栅 障 同步 
是 一 个 挑战 。 

将 线程 划分 成 具有 32 个 线程 的 SIMT warp 以 一 个 32 的 因子 减 小 了 同步 的 难度 。 线 程 在 SIMT 
线程 调度 器 中 的 栅 障 处 等 待 ， 因此 它们 在 等 待 时 不 消耗 任何 处 理 器 周期 。 当 一 个 线程 执 
行 bar.sync 指 令 时 ， 它 增加 栅 障 的 线程 到 达 计 数 器 . 旦 调度 器 将 线程 标记 成 等 待 顶 障 的 。 一 旦 所 
有 的 CTA 线程 到 达 ， 顶 障 计 数 器 与 期 待 的 terminal 数值 匹配 ， 调 度 器 释放 所 有 在 棚 障 处 等 待 的 线 
程 并 继续 执行 线程 。 
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A.4.8 流 处 理 器 (SP) 


多 线程 流 处 理 (SP) 核 是 多 处 理 器 中 主要 的 线程 指令 处 理 器 。 它 的 寄存 器 文件 (RF) 提供 


1024 个 标量 32 位 寄存 器 ， 可 用 于 最 多 64 个 线程 。 它 执行 所 有 的 基本 浮 点 操作 ， 包 括 add.f32、 
mul.f32 、madf32 《 浮 点 乘 加 ) 、min.f32、max.f32 和 setp.f32 ( 浮 点 比较 并 设置 断言 )。 浮 点 加 和 


乘 操 作 与 单 精 度 浮 点 数 的 IEEE 754 标准 兼容 ， 包 含 非 数值 (NaN) 和 无 穷 值 。SP 核 也 实现 了 图 
A-4-3 中 的 32 位 和 64 位 整数 算术 、 比 较 、 转 换 和 逻辑 PTX 指令 。 

浮 点 aaa 和 mul 操作 使 用 IEEE 的 取 最 接近 偶数 作为 默认 的 舍 人 模式 。 mad.£f32 浮 点 乘 加 操作 
执行 带 截 断 的 乘法 ， 接 着 进行 使 用 取 最 接近 偶数 的 加 法 。SP 冲刷 输入 的 非 正常 操作 数 到 保留 符 
号 零 。 目 标 输出 指数 范围 下 溢 的 结果 在 舍 人 后 被 冲刷 到 保留 符号 零 。 


A 4.9 特殊 功能 单元 (SFU) 


某 些 线程 指令 可 以 在 SFU 上 执行 ， 同 时 其 他 线程 指令 在 SP 上 执行 。SFU 实现 了 图 A-4-3 中 
的 特殊 功能 指令 ， 这 些 指令 计算 32 位 浮 点 近似 值 的 倒数 、 倒 数 平方 根 和 关键 超越 函数 。 也 实现 
了 像素 渲染 的 32 位 浮 点 平面 属性 插值 ， 提 供 精 确 的 属性 插值 ， 如 颜色 、 深 度 和 纹理 坐标 。 

每 个 流水 SFU 每 时 钟 周期 产生 一 个 32 位 的 浮 点 特殊 功能 结果 ; 每 个 多 处 理 器 中 的 两 个 SFU 
执行 特殊 功能 指令 的 速度 ， 是 八 个 SP 执行 简单 指令 速度 的 四 分 之 一 。 与 八 个 SP 并 发 ，SFU 同样 
执行 mul.f32 乘 指令 ， 用 合适 的 指令 混合 增加 了 线程 50% 的 峰值 运算 速度 。 

为 进行 功能 评价 ，Tesla 架构 SFU 使 用 基于 加 强 鞍 点 近似 的 二 次 插值 ， 用 于 近似 倒数 、 倒 数 
平方 根 、log,x、2” 和 sin/cos 功能 。 功 能 评估 精度 从 22 ~24 位 尾数 位 。 关 于 SFU 算术 的 更 多 详细 
信息 可 参考 A.6 节 。 


A. 4. 10 与 其 他 多 处 理 器 的 比较 


与 SIMD 向 量 架 构 的 处 理 器 (如 x86 SSE) 比较 ，SIMT 多 处 理 器 可 以 独立 地 执行 单个 线程 ， 
而 不 是 总 是 在 一 个 同步 组 中 一 起 执行 它们 。SIMT 硬件 在 独立 线程 中 寻找 数据 并 行 性 ， 而 SIMD 
硬件 则 需要 软件 在 每 条 向 量 指令 中 显 式 地 表达 数据 并 行 性 。 一 个 SIMT 机 器 ， 可 以 在 warp 中 的 32 
个 线程 具有 相同 的 执行 路 径 时 ， 同 时 执行 它们 ， 也 可 以 在 它们 出 现 分 支 时 独立 地 执行 每 个 线程 。 
由 于 SIMT 程序 和 指令 仅仅 描述 了 一 个 单独 独立 线程 的 行为 ， 而 不 是 SIMD 具有 四 个 或 更 多 数据 
通路 的 数据 向 量 ， 这 种 优势 是 显著 的 。 然 而 SIMT 多 处 理 器 具有 类 似 于 SIMD 的 效率 ， 将 一 条 指 
令 单 元 的 面积 和 成 本 分 摊 到 一 个 warp 中 的 32 个 线程 上 和 8 个 流 处 理 器 核 上 。SIMT 提供 SIMD 的 
性 能 和 多 线程 的 生产 力 ， 避 免 了 为 边界 条 件 和 部 分 分 支 显 式 地 编码 SIMD 回 量 的 需要 。 

SIMT 多 处 理 器 引信 了 较 小 的 开销 ， 由 于 它 是 具有 硬件 栅 障 同步 的 硬件 多 线程 。 这 人 允许 图 形 
演 染 和 CUDA 线程 表达 非常 细 粒 度 并 行 性 。 图 形 和 CUDA 程序 使 用 线程 表达 单线 程 程序 中 的 细 粒 
度数 据 并 行 ， 而 不 是 强迫 程序 员 使 用 SIMD 向 量 指令 表示 它 。 开发 标量 单线 程 代码 比 向 量 代码 更 
为 简单 且 更 有 效率 ， 且 SIMT 多 处 理 器 执行 这 些 代 码 具 有 类 似 SIMD 的 效率 。 

将 八 个 流 处 理 器 核 紧密 地 连接 到 一 起 ， 组 成 一 个 多 处 理 器 ， 然后 实现 可 扩展 数量 的 这 种 多 
处 理 器 就 构成 一 个 两 级 的 由 多 处 理 器 组 成 的 多 处 理 器 。CUDA 编程 模型 ， 通 过 为 细 粒 度 并 行 计算 
提供 单独 线程 ， 和 为 粗 粒 度 并 行 操作 提供 线程 块 网 格 ， 对 这 两 级 层次 进行 了 开发 。 相 同 的 线程 程 
序 可 提供 细 粒 度 和 粗 粒度 这 两 种 操作 。 相 反 ， 使 用 SIMD 回 基 指令 的 CPU 必须 使 用 两 种 不 同 的 编 
程 模 型 以 提供 细 粒 度 和 粗 粒度 操作 : 在 不 同 核 上 的 粗 粒 度 并 行 线程 和 用 于 细 粒 度数 据 并 行 的 
SIMD 向 量 指令 。 
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A.4.11 多 线程 多 处 理 器 总 结 


示例 中 基于 Tesla 构架 的 GPU 多 处 理 器 是 高 度 多 线程 和 的， 同时 执行 总 数 可 达 512 的 轻 量 级 线 
程 以 支持 细 粒 度 像素 演 染 和 CUDA 线程 。 它 使 用 在 SIMD 架构 和 多 线程 上 的 一 种 变种 ， 称 为 SIMT 
( 单 指令 多 线程 )， 高 效 地 将 一 条 指令 广播 到 一 个 warp 中 的 32 个 并 行 线程 中 ， 同 时 允许 每 个 线程 
独立 地 进行 分 支 和 执行 。 每 个 线程 在 八 个 流 处 理 器 (SP) 核 中 的 一 个 执行 它 的 指令 流 ， 流 处 理 
器 是 多 线程 的 ， 最 高 可 达 64 线程 。 

PTX ISA 是 一 个 基于 寄存 器 的 存 / 取 标量 ISA， 描 述 一 个 单线 程 的 执行 。 由 于 PTX 指令 被 优 
化 且 被 转换 成 一 个 特定 GPU 的 二 进 制 微 指 令 ， 硬 件 指令 可 以 快速 地 形成 ， 而 无 需 打 断 编译 器 和 
产生 PTX 指令 的 软件 工具 。 


A.5 ”并行 存储 系统 
在 GPU 本 身 之 外 ， 存 储 子 系统 是 图 形 系 统 性 能 的 最 重要 的 决定 因素 。 存 储 器 的 读 和 写 ， 图 
形 负载 都 要 求 非常 高 的 传输 速率 。 像 素 写 和 混合 〈 读 一 修改 一 写 ) 操作 、 深 度 缓 存 读 和 写 、 纹 
理 映 射 读 、 产 生 和 拒绝 顶点 以 及 属性 数据 读 ， 组 成 了 存储 器 通信 和 的 大 部 分 。 
现代 CPU 是 高 度 并 行 的 ， 如 图 A-2-5 所 示 。 例 如 ， 在 600 MHz 情况 下 ，GeForce 8800 每 个 时 
钟 周期 可 处 理 32 个 像素 。 典 型 地 ， 每 个 像素 需要 一 个 颜色 读 和 写 ， 和 一 个 4 个 字 节 像素 的 深度 
读 和 号。 通常 ,平均 读 取 每 4 个 字 节 中 2 到 3 个 纹理 像素 ， 来 产生 那个 像素 的 颜色 。 因 此 对 于 -一 
个 典型 的 情况 ， 每 时 钟 周期 需要 28 字 节 乘 以 32 像素 = 896 字 节 。 显 然 ， 对 存储 系统 的 带宽 需求 
是 巨大 的 。 
为 满足 这 些 需 求 ，GPU 存储 系统 具有 以 下 特点 : 
。 它们 是 宽 的 ， 意 味 着 具有 大 量 的 管 脚 用 于 GPU 和 它 的 存储 设备 之 间 的 数据 传输 ， 且 存储 
赦 阵 列 本 身 由 许多 DRAM 芯片 组 成 以 提供 完全 的 数据 总 线 宽度 。 
它们 是 快 的 ， 意 味 着 采用 了 快速 的 信号 技术 以 最 大 化 每 个 管 脚 上 的 数据 速率 (位 / 秒 )。 
* GPU 寻找 每 一 个 可 用 的 时 钟 周期 进行 数据 传输 ， 读 写 存 储 阵 列 。 特 别 地 ， 为 了 达到 这 个 
日 标 ，GPU 并 非 旨 在 最 小 化 存储 系统 的 延迟 。 高 吞吐 量 〈 使 用 效率 ) 和 低 延 迟 从 根本 上 
来 说 是 冲突 的 。 
。 同时 采用 了 有 扣 (程序 员 必 须知 道 ) 和 无 损 (对 应 用 不 可 见 ， 且 只 能 看 时 机 进行 ) 压缩 
技术 。 
。 采用 cache 和 运行 相关 结构 减少 片 外 通信 需求 的 总 量 ， 并 保证 用 于 搬运 数据 的 时 钟 周期 
尽 可 能 满 地 使 用 。 


A. 5.1 DRAM 的 考虑 


GPU 必须 考虑 DRAM 独 有 的 特性 。DRAM 芯片 在 内 部 被 安排 成 多 体 (典型 的 为 4~8)， 每 
个 体 包含 2 的 寡 次 数量 的 行 (典型 的 为 16 384 左右 )， 且 每 行 包含 2 的 知 次 数量 的 位 (典型 的 为 
8192) 。DRAM 在 它们 的 控制 处 理 器 上 引入 了 多 种 时 间 需 求 。 例如 ， 激 活 一 行 需 要 数 十 个 时 钟 周 
期 ， 但 一 旦 激活 ， 使 用 一 个 新 的 列 地 址 每 四 个 时 钟 周期 可 以 完成 该 行 中 任意 位 的 访问 。 双 数 据 率 
(DDR) 同步 DRAM 在 接口 时 钟 的 上 升 沿 和 下 降 沿 都 传输 数据 (参考 第 5 章 ) 。 因 此 ,使 用 1 CHz 
时 钟 的 DDR DRAM 每 秒 每 数据 管 脚 传送 2 G 位 。 图 形 DDR DRAM 通常 具有 32 个 双向 数据 管 脚 ， 
因此 每 时 钟 周期 可 从 DRAM 读 或 写 8 个 字 节 。 

GPU 内 部 有 大 量 的 存储 传输 发 生 器 。 每 个 逻辑 图 形 流水 线 的 不 同 段 都 有 它们 自己 的 请 求 流 : 
命令 和 定点 属性 读 取 ， 演 染 纹理 读 取 和 load/store， 像素 深度 和 颜色 读 写 。 在 每 个 逻辑 段 ， 常 有 
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多 个 独立 单元 来 传送 并 行 知 吐 量 。 其 中 的 每 一 个 都 是 独立 的 存储 器 请 求 者 。 当 从 存储 系统 的 观 
点 出 发 ， 有 大 量 无 关联 的 请 求 在 同时 执行 。 这 天 生 与 DRAM 首选 的 引用 模式 不 下 配 。GPU 存储 
控制 器 的 一 个 解决 方案 是 为 流向 不 同 DRAM 体 的 通信 维持 独立 的 堆 ， 一 直 等 待 ， 直 到 一 个 特定 
DRAM 行 有 足够 的 通信 重 在 等 待 ， 这 时 激活 该 行 ， 并 一 次 传输 所 有 的 通信 量 。 要 注意 的 是 ， 积 聚 
等 竺 的 请 求 ， 虽 然 对 DRAM 行 局 部 性 和 因此 而 来 的 数据 总 线 的 利用 率 来 说 是 有 益 的 ， 但 在 那些 
花费 时 间 等 待 其 他 请 求 的 请 求 者 看 来 ， 导 致 了 更 长 的 平均 延迟 。 设 计 中 必须 考虑 到 ， 没 有 特殊 的 
请 求 等 待 过 长 ， 否 则 一 些 处 理 单元 因 等 待 数据 而 饥饿 ， 并 最 终 导 致 相 邻 的 处 理 器 处 于 空闲 状态 。 

GPU 存储 子 系统 被 安排 成 多 卉 储 器 分 区 ， 每 个 都 有 一 个 完全 独立 的 存储 控制 器 和 一 两 个 
DRAM 设备 ， 这 些 DRAM 设备 被 这 些 分 区 完全 和 排他 地 所 有 。 为 达到 最 好 的 负载 平衡 并 因此 接 
近 分 区 的 理论 性 能 ， 地 址 是 细致 交织 的 ， 均 匀 地 穿 过 所 有 的 存储 器 分 区 。 和 典型 的 分 区 交织 步 幅 
是 一 个 由 几 百 字 节 组 成 的 块 。 设 计 存储 器 分 区 的 数量 ， 以 平衡 处 理 器 和 其 他 存储 请 求 者 的 数量 。 


A.5.2 Cache 


典型 的 CPU 工作 负载 具有 庞大 的 工作 集 一 -将近 数 百 兆 字 节 用 来 产生 一 个 单一 的 图 形 帧 。 
不 像 CPU， 构建 足够 大 的 片上 cache， 用 来 存放 图 形 应 用 中 接近 整个 工作 集 的 所 有 数据 是 不 现实 
的 。 然 而 CPU 可 以 假定 非常 高 的 cache 命中 率 (99. 9% 甚至 更 高 ) ，GPU 通常 的 命中 率 接近 90% 
并 因此 必须 处 理 众多 飞行 缺失 。CPU 可 以 适度 地 设计 为 在 等 待 较 少 的 cache 缺失 时 暂停 ，GPU 则 
需要 将 处 理 缺 失 和 命中 混合 。 我 们 称 之 为 一 种 流 cache 结构 。 

GPU cache 必须 为 它们 的 客户 提供 非常 高 的 带宽 。 考 虑 一 个 纹理 cache 的 情形 。 一 个 典型 的 
纹理 单元 ， 每 个 时 钟 周期 可 以 为 每 四 个 像素 计算 两 个 双 线 性 插值 ， 且 一 个 GPU 可 能 有 很 多 这 样 
独立 的 操作 纹理 单元 。 每 个 双 线 性 插值 需要 四 个 分 立 的 纹理 像素 ， 每 个 纹理 像素 可 能 是 一 个 64 
位 的 值 。 四 个 16 位 的 成 分 是 有 代表 性 的 。 因 此 ， 总 带宽 是 2 x4 x4 x64 =2048 位 每 时 钟 周期 。 
每 个 分 立 的 64 位 纹理 像素 是 独立 寻 址 的 ， 因 此 每 时 钟 周期 cache 需要 处 理 32 个 唯一 地 址 。 这 天 
生地 适合 多 体 和 /或 多 端口 组 织 的 SRAM 阵列 。 


A.5.3 MMU 


现代 GPU 具有 将 虚拟 地 址 转化 成 物理 地 址 的 能 力 。 在 GeForce 8800 中 ， 所 有 的 处 理 单元 在 
一 个 40 位 的 虚拟 地 址 空间 中 产生 存储 器 地 址 。 为 进行 计算 ，load 和 store 线程 指令 使 用 32 位 的 字 
节 地 址 ， 该 地 址 通过 加 上 上 一 个 40 位 的 偏 移 扩展 成 一 个 40 位 的 虚拟 地 址 。 存储 管理 单元 完成 虚 到 
实 的 地 址 转换 ; 硬件 从 局 部 存储 器 中 读 取 页 表 ， 以 对 在 处 理 器 核 和 泻 染 引擎 上 扩散 的 转换 查找 
旁 路 缓冲 层次 行为 上 的 缺失 做 出 反应 。 除 物理 页 位 之 外 ，GPU 页 表 条 目 为 每 一 页 指定 了 压缩 算 
法 。 页 表 大 小 在 4 ~ 128 K 字 节 之 间 变 化 。 


A 5.4 存储 器 空间 


如 A.3 节 介 绍 的 那样 ，CUDA 展示 了 不 同 的 存储 器 空间 以 允许 程序 员 用 最 优 性 能 的 方式 保存 
数据 。 为 方便 下 面 的 讨论 ， 假 设 使 用 NVIDIA Tesla 构架 GPU 


A. 5.5 全 局 存储 器 


全 局 存储 器 存储 在 外 部 DRAM 中 ; 对 于 任何 一 个 物理 流 多 处 理 器 (SM) 来 说 它 都 不 是 局 部 
的 ， 因 为 它 意欲 用 来 在 不 同 网 格 中 的 不 同 CTA (线程 块 ) 间 进 行 通 信 。 实 际 上 ， 访 问 全 局 存储 
船 中 一 个 位 置 的 众多 CTA 或 许 不 会 在 GPU 上 同时 执行 ， 通过 设计 ， 在 CUDA 中 程序 员 不 知道 
CTA 执行 的 相对 顺序 。 由 于 地 址 空间 在 所 有 存储 器 分 区 闻 是 均匀 分 布 的 ， 从 任意 流 多 处 理 器 到 
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任意 DRAM 分 区 之 间 必 须 有 一 个 读 / 写 路 径 。 

不 同 线程 〈 和 不 同 处 理 器 ) 对 全 局 存储 器 的 访问 不 能 保证 具有 顺序 一 致 性 。 线 程 程序 看 到 
的 是 一 个 松弛 的 存储 器 顺序 模型 。 在 一 个 线程 内 部 ， 对 相同 地 址 的 存储 器 的 读 写 次 序 是 保持 的 ， 
但 对 不 同 地 址 的 访问 次 序 可 能 是 没有 保持 的 。 不 同 线程 的 存储 器 读 写 请 求 是 无 序 的 。 在 一 个 CTA 
内 部 ， 概 障 同步 指令 bar.sync 可 以 用 来 在 CTA 的 线程 间 获 得 严格 的 存储 器 次 序 。membar 线程 指 
令 提供 一 个 存储 器 barrier/fence 操作 ， 提 交 先 前 的 存储 器 访问 并 使 它们 在 处 理 之 前 对 其 他 线程 可 
见 。 线 程 也 可 以 使 用 A.4 市 中 描述 的 存储 器 原子 操作 在 它们 所 共享 的 存储 器 上 协调 工作 。 


A.5.6 共享 存储 器 


每 个 CTA 共享 存储 器 仅 对 属于 该 CTA 的 那些 线程 可 见 ， 共 享 存储 器 仅 在 CTA 创建 到 它 终止 
这 段 时 间 占 用 存储 。 共 享 存储 器 因此 可 以 驻 留 在 片上 。 这 种 方法 有 很 多 好 处 。 首 先 ， 共 享 存储 器 
流量 不 需要 竞争 访问 全 局 存储 器 所 需要 的 片 外 带宽 。 其次， 在 片上 构建 超 高 带宽 存储 器 结构 ， 以 
支持 每 个 流 多 处 理 器 的 读 写 需 求 是 实用 的 。 事 实 上 ， 共 享 存储 器 与 流 多 处 理 器 是 紧 奈 合 的 。 

每 个 流 多 处 理 器 包含 八 个 物理 线程 处 理 器 。 在 一 个 共享 存储 器 时 钟 周期 里 ， 每 个 线程 处 理 
铝 可 以 处 理 两 个 线程 相当 的 指令 ， 因 此 在 每 个 时 钟 周期 ， 必 须 处 理 16 个 线程 相当 的 共享 存储 器 
请 求 。 由 于 每 个 线程 可 以 产生 它 自己 的 地 址 ， 地 址 是 典型 唯一 的 ， 共 享 存储 器 使 用 16 个 独立 编 
址 的 SRAM 体 构建 。 对 于 通常 的 访问 模式 ，16 个 体 对 维持 吞吐 量 来 说 是 足够 的 ， 但 不 合理 的 情 
况 是 可 能 的 ; 例如 ， 所 有 的 16 个 线程 可 能 恰好 访问 一 个 SRAM 体 的 不 同 地 址 。 必 须 可 以 将 一 个 
请 求 从 任意 一 个 线程 通路 路 由 到 SRAM 的 任意 体 ， 因 此 需要 一 个 16 乘 16 的 互联 网 络 。 


A. 5.7 局 部 存储 器 


每 线程 的 局 部 存储 器 是 私有 存储 器 ， 仅 对 单一 线程 可 见 。 局 部 存储 器 在 结构 上 比 线程 寄存 
全 文件 要 大 ， 且 一 个 程序 可 以 将 地 址 计算 进 局 部 存储 器 。 为 支持 局 部 存储 器 的 大 的 分 配 〈 回 收 
总 的 分 配 是 每 线程 分 配 的 数量 乘 上 活动 线程 的 数量 ) ， 局 部 存储 器 位 于 外 部 DRAM 中 。 

尽管 全 局 和 每 线程 的 局 部 存储 器 驻 留 在 片 外 ， 它 们 很 适 于 在 片上 进行 缓存 。 


A. 5.8 常量 存储 器 


常量 存储 器 对 一 个 在 SM 上 运行 的 程序 来 说 是 只 读 的 (可 以 通过 GPU 命令 写 人 ) 。 它 存在 于 
外 部 DRAM 中 ， 且 在 SM 中 进行 了 高 速 缓存 。 由 于 一 般 地 一 个 SIMT warp 中 的 大 多 或 所 有 线程 从 
常量 存储 器 的 相同 地 址 进行 读 取 ， 每 个 时 钟 一 个 单独 的 地 址 查找 是 足够 的 。 常 量 cache 设计 以 向 
每 个 warp 中 的 线程 广播 标量 值 。 


A. 5.9 纹理 存储 器 


纹理 仓储 器 保存 有 巨大 的 只 读数 据 阵列 。 用 于 计算 的 纹理 具有 与 用 于 3D 图 形 的 纹理 相同 的 
属性 和 容量 。 尽 管 纹理 一 般 是 二 维 图 像 (2D 像素 值 数组 ) ，1D 〈 直 线 ) 和 3D (体积 ) 纹理 也 是 
可 用 的 。 

一 个 计算 程序 使 用 一 条 tex 指令 引用 一 个 纹理 。 操作 数 包括 一 个 命名 纹理 的 标示 符 ， 和 基于 
纹理 维度 的 1、2 个 或 3 个 坐标 。 浮 点 坐标 包含 小 数 部 分 ， 该 小 数 部 分 在 纹理 像素 位 置 中 指定 了 
一 个 采样 位 置 。 在 结果 返回 程序 之 前 ， 非 整 数 坐标 调用 一 个 对 四 个 最 接近 值 (对 于 2D 纹理 来 
说 ) 的 双 线 性 权重 插值 。 

纹理 读 取 在 一 个 流 cache 层次 中 缓存 ， 该 流 cache 层次 设计 用 来 在 上 千 个 同时 线程 中 优化 纹 
理 读 取 的 吞吐 量 。 一 些 程序 使 用 纹理 读 取 作为 缓存 全 局 存储 器 的 一 种 方式 。 
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A. 5. 10 表面 


表面 是 一 个 用 于 一 维 、 二 维 或 三 维 像素 值 数组 和 相关 格式 类 的 术语 。 定 义 了 多 种 格式 : 例 
如 ， 一 个 像素 可 以 被 定义 成 四 个 8 位 RGBA 整数 元 素 ， 或 四 个 16 位 浮 点 元 素 。 程 序 内 核 不 需要 
知道 表面 的 类 型 。tex 指令 根据 表面 的 格式 ， 将 其 结果 重新 计算 成 浮 点 。 


A.S.11 load/store 访问 


共有 整数 字 节 寻 址 的 load/store 指令 使 得 使 用 传统 语言 如 C 和 C++ 编写 和 编译 程序 成 为 可 
能 。CUDA 程序 使 用 load/store 指令 进行 存储 器 访问 。 

为 提高 存储 器 带宽 和 减 小 开销 ， 当 地 址 著 进 同一 块 中 且 符 合 对 齐 规则 时 ， 局 部 和 全 局 load/ 
store 指令 将 从 同一 warp 中 来 的 单独 的 并 行 线程 请 求 合 并 成 一 个 存储 块 请 求 。 将 独立 的 小 存储 器 
请 求 合 并 成 大 块 的 请 求 ， 与 分 立 请 求 相 比 提供 了 显著 的 性 能 提升 。 巨 大 的 线程 数量 ， 加 之 支持 众 
多 未 完成 的 load 请 求 ， 帮 助 掩 盖 了 在 外 部 DRAM 中 实现 的 局 部 和 全 局 存储 器 的 load-to-use 延迟 。 


A.S.12 ROP 


如 图 A-2-5 所 示 ，NVIDIA Tesla 构架 的 GPU 包含 一 个 可 扩展 的 流 处 理 器 阵列 (SPA) ， 它 执 
行 所 有 的 CPU 可 编程 计算 ; 和 一 个 可 扩展 的 存储 器 系统 ， 它 由 外 部 DRAM 控制 和 固定 功能 光 构 
操作 处 理 器 (ROP) 组 成 ， 其 中 ROP 直接 在 存储 器 中 执行 颜色 和 深度 帧 缓存 操作 。 每 个 ROP 单 
元 都 有 一 个 特定 的 存储 器 分 区 与 之 配对 。ROP 分 区 通过 一 个 内 部 互联 网 络 由 SM 供给 数据 。 每 个 
ROP 负责 深度 和 模板 测试 和 更 新 ， 还 负责 颜色 混合 。ROP 和 存储 控制 器 协作 实现 颜色 和 深度 的 
无 损 压 缩 〈 最 高 达 8: 1) ， 以 减少 外 部 带宽 需求 。ROP 单元 也 在 存储 器 上 执行 原子 操作 。 


A. 6 浮 点 算术 


今天 的 GPU 使 用 人 EEE 754 兼容 的 单 精度 32 位 浮 点 操作 (参考 第 3 章 ) ， 在 可 编程 处 理 器 中 
核 执行 大 多 数 算术 操作 。 早 期 GPU 的 定点 算术 被 16 位 、24 位 和 32 位 浮 点 ， 然 后 是 IEEE 754 兼 
和 容 的 32 位 浮 点 所 超越 。GPU 中 的 一 些 固 定 功能 逻辑 ， 如 纹理 过 滤 硬 件 ， 继续 使 用 私有 数字 格式 。 
近来 的 CPU 也 提供 下 EE 754 兼容 的 双 精 度 64 位 浮 点 指令 。 


A. 6. 1 支持 的 格式 


IEEE 754 标准 【2008 」 具体 说 明了 浮 点 算术 的 基本 原理 和 存储 格式 。GPU 使 用 基本 格式 
中 的 两 个 进行 计算 ，32 位 和 64 位 二 进 制 浮 点 ， 一 般 称 为 单 精度 和 双 精 度 。 该 标准 也 指定 了 一 
个 16 位 二 进 制 存 储 浮 点 格式 一 一 半 精 度 S 。GPU 和 Cg 演 染 语言 使 用 窑 16 位 半数 据 格式 进行 
有 效 的 数据 存储 和 移动 ， 而 维持 了 高 的 动态 范围 。GPU 企 纹 理 过 滤 单 元 和 光 顶 操作 单元 中 ， 
用 半 精 度 执 行 了 许多 纹理 过 滤 和 像素 混合 计算 。 由 Industrial Light and Magic [2003」 制定 的 
OpenEXR 高 动态 范围 图 像 文件 格式 ， 在 图 像 计算 和 运动 图 片 应 用 中 ， 颜色 元 素 值 使 用 同样 的 
半 格 式 。 


A. 6.2 基本 算术 
一 般 的 GPU 可 编程 核 上 的 单 精度 浮 点 操作 包括 加 、 乘 、 乘 加 " 、 最 小 值 、 最 大 值 、 比 


曲 ” 半 精度 《half precision) : 一 个 16 位 二 进 制 浮 点 格式 ， 有 1 位 符号 位 、 5 位 指数 、10 位 小 数 和 隐 含 的 整数 位 。 
与 乘 加 (multiply-add，MAD) 执行 一 个 先 滋 后 加 组 合 操作 的 单 精度 浮 点 指令 。 
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较 、 设 置 断言 和 在 整数 与 浮 点 数 之 间 的 转化 。 浮 点 指令 通常 为 非 数 和 绝对 值 提 供 源 操 作 数 
修饰 符 。 

今天 ,大 多 GPU 的 浮 点 加 和 乘 操作 与 单 精度 浮 点 数 的 IEEE 754 标准 兼容 ， 包 含 非 数 值 
( NaN) 和 无 穷 值 。 浮 点 加 和 乘 操作 使 用 IEEE 的 取 最 接近 偶数 作为 默认 的 舍 人 模式 。 为 增加 浮 后 
指令 的 吞吐 量 ，GPU 通常 使 用 一 个 混合 的 乘 加 指令 (maa)。 乘 加 操作 执行 截断 的 浮 点 乘 ， 接 着 
进行 取 最 近 偶数 的 浮 点 加 。 它 在 一 个 发 射 周期 中 提供 两 个 浮 点 操作 ， 无 需 指令 调度 器 分 派 两 条 
独立 的 指令 ,但 在 加 操作 之 前 ， 计 算 没 有 融合 且 结 果 没 有 截断 。 这 与 第 3 章 和 本 节 后 面 要 讨论 的 
融合 的 乘 加 指令 有 所 不 同 。 典 型 地 ，GPU 冲刷 非 正 常 的 源 操作 数 到 保留 符号 零 ， 且 目标 输出 指 
数 范围 下 洲 的 结果 在 舍 和 人 后 被 冲刷 到 保留 符号 零 。 


A. 6.3 专用 算术 


GPU 提供 硬件 来 加 速 特殊 功能 计算 、 属 性 插值 和 纹理 过 滤 。 特 殊 功 能 指令 包括 人 余弦、 正弦 、 
2 的 指数 寡 、2 的 对 数 、 倒 数 和 倒数 平方 根 。 属 性 插值 指令 提供 高 效 的 像素 属性 的 产生 ， 源 于 平 
面 等 式 的 计算 。A. 4 节 中 介绍 的 特殊 功能 单元 { SFU)” 计算 特殊 功能 和 插值 平面 属性 [ Oberman 
和 Siu，2005 ] 。 

使 用 硬件 计算 特殊 功能 有 几 种 方法 。 已 经 显示 ， 基 于 增强 的 最 小 有 逼近 的 二 次 插值 是 用 硬件 
实现 逼近 功能 的 一 种 非常 有 将 的 方法 ， 包 括 倒数 、 倒 数 平 方 根 、log:x*、2 、sin 和 cos。 

我 们 可 以 总 结 SFU 二 次 插值 的 方法 。 对 于 一 个 具有 n 位 有 效 数 字 的 二 进 制 输入 操作 数 X， 有 
效 数字 被 划分 为 两 部 分 : X, 是 高 mn 位 ，X, 是 低 n-mm 位 。 高 m 位 Xu 用 来 查询 一 系列 三 查找 表 ， 
以 返回 三 个 限定 词 系 数 C,、C, 、C;,。 每 个 隆 数 的 近似 需要 唯一 的 一 组 表 。 这 些 系 数 用 于 一 个 给 
定 清 数 f(X) 在 范围 X, < =X<X, +2 “的 近似 ， 通 过 计算 表达 式 : 

f(X) = Co + CX, + CX 
每 个 隆 数 估计 的 精确 度 从 22 到 24 有 效 数字 位 变化 。 示 例 聘 数 统计 在 图 A-6-1 中 给 出 。 


2 有 : > 和 : lt 
1/ | ; | 













其 


“ULP: unit in the last place. “N/A: not applicable. 


图 A-6-1 特定 功能 近似 统计 
适合 于 NVIDIA GeForce 8800 特殊 功能 单元 (SFU)。 

IEEE 754 标准 为 除法 和 平方 根 指定 了 精准 的 含 人 要 求 ， 然 而 ， 对 许多 GPU 应 用 来 说 ， 准 确 
的 遵循 是 不 需要 的 。 对 于 那些 应 用 来 说 ， 与 末尾 位 的 精确 度 相 比 ， 更 高 的 计算 吞吐 量 是 更 为 重要 
的 。 对 于 SFU 特殊 功能 ，CUDA 数学 库 既 提供 了 完全 精确 函数 ， 也 提供 了 具有 SFU 指令 精度 的 

快速 蚂 数 。 

GPU 中 田 外 的 专用 算术 操作 是 悄 性 插值 。 通 常 为 原始 顶点 指定 的 关键 局 性 组 成 需 演 染 的 一 

幅 场 景 。 示 例 属性 是 颜色 、 深 度 和 纹理 坐标 。 由 于 需要 在 每 个 像素 位 置 决定 属性 值 的 缘故 ， 这 些 


护 特殊 功能 单元 (special function unit，SFU) : 一 个 用 于 计算 特殊 功能 和 插值 平面 属性 的 硬件 单元 。 
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属性 必须 在 (x，y) 屏 攻 空间 中 进行 插值 。 在 一 个 (x,，y) 平面 的 一 个 给 定 属性 忌 的 值 可 以 使 
用 如 下 平面 方程 表达 : 
U(x,y) = Ax+By+C， 

其 中 A、B、C 是 与 每 个 属性 U 关联 的 插值 参数 。 插 值 参 数 A、B、C 均 使 用 单 精度 浮 点 数 
表示 。 

在 像素 演 染 处 理 器 中 ， 函 数 求 解 器 和 属性 插值 器 的 需求 确定 后 ， 即 可 进行 SFU 的 设计 ， 以 
简单 有 效 地 执行 这 两 种 功能 。 这 两 种 函数 使 用 乘积 操作 的 和 插值 产生 结果 ， 两 个 函数 中 进行 求 
和 的 项 数 非 常 相似 。 


纹理 操作 

纹理 映射 和 过 滤 是 CPU 中 另 一 组 重要 的 专用 浮 点 算术 操作 。 用 于 纹理 映射 的 操作 包括 : 

1) 为 当前 平面 像素 (x，y) 接收 纹理 地 址 (s，t) ， 其 中 s 和 + 为 单 精度 浮 点 数 。 

2) 计算 细节 的 级 别 以 鉴别 正确 的 纹理 MIP-maps 级 别 。 

3) 计算 三 线条 插值 片段 。 

4) 为 选 定 的 MIP-map 级 缩放 纹理 地 址 (s，t) 。 

5) 访问 存储 器 并 取 回 要 求 的 纹理 像素 (纹理 元 素 )。 

6) 在 纹理 像素 上 执行 过 滤 操作 。 

纹理 映射 需要 相当 数量 的 浮 点 计算 用 于 全 速 操作 ， 这 些 浮 点 计算 大 多 在 16 位 的 半 精 度 上 执 
行 。 例 如 ，CeForce 8800 除 它 的 常规 IEEE 单 精 度 浮 点 指令 外 ， 为 纹理 映射 指令 ,极限 情况 下 可 
产生 大 约 500 GFLOPS 的 私有 格式 浮 点 计算 。 关 于 纹理 映射 和 过 滤 的 更 多 细节 ， 参 考 Foley 和 van 
Dam [1995 ] 。 


A. 6.4 性 能 


学 态 加 和 乘 算术 硬件 是 完全 流水 的 ， 对 延迟 进行 了 优化 ， 以 在 延迟 和 面积 间 进 行 权衡 。 流 水 
以 后 ， 符 定 功能 的 吞吐 量 比 浮 点 加 和 乘 操作 要 少 。 在 现代 GPU 中 ， 一 个 SFU 被 四 个 SP 核 所 共 
至 ， 典型 的 性 能 是 ， 特 殊 功能 的 速度 是 吞吐 量 的 四 分 之 一 。 相 反 ， 对 于 相似 功能 ，CPU 典型 地 
具有 相当 低 的 吞吐 量 ， 如 除法 和 平方 根 ， 即 使 具有 更 为 精确 的 结果 。 通 常 ， 属性 插值 硬件 是 完全 
流水 的 ， 以 全 速 地 进行 像素 演 染 。 


A. 6. 5 ” 双 精 度 


较 新 的 GPU， 如 Tesla T10P， 也 以 硬件 的 方式 支持 IEEE 754 64 位 双 精 度 操作 。 双 精度 
下 的 标准 浮 点 算术 操作 包括 加 、 乘 和 不 同 浮 点 和 整数 格式 间 的 转化 。2008 版 的 IEEE 754 标 
准 包含 了 融合 的 乘 加 操作 (FMA) 规范 ， 如 第 3 章 中 描述 。FMA 操作 执行 一 个 浮 点 乘 ， 然 
后 跟着 一 个 加 操作 ， 使 用 单 精 度 伟人 。 融合 乘 和 加 操作 在 中 间 计 算 中 保持 全 精度 。 这 种 行 
为 使 得 更 为 精确 的 浮 点 计算 ， 包 括 乘积 累加 、 带 小 数 点 乘 、 矩阵 乘 和 多 项 式 求 值 成 为 可 能 。 
FMA 指令 也 使 得 软件 高 效 地 实现 准确 伟人 除法 和 平方 根 ， 而 无 需 硬件 除 或 平方 根 单元 成 为 
可 能 。 

双 精 度 硬件 FMA 单元 实现 64 位 加 、 乘 、 转 化 和 FMA 操作 本 身 。 双 精 度 FMA 单元 的 结 
和 爸 ， 提 供 了 在 输入 和 输出 上 进行 全 速 非 规格 数 处 理 的 支持 。 图 A-6-2 展示 了 一 个 FMA 单元 的 
块 图 。 





© MIP-map: 拉丁 短语 multum in parvo 的 缩写 ， 即 小 而 丰富 。 一 个 MIP- 包含 预先 计算 好 的 不 
用 于 增加 演 染 速度 并 减少 处 理 。 Pp 间 分 辨 率 的 图 像 ， 
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如 图 A-6-2 所 示 ，A 和 了 的 有 效 数字 相 乘 形成 一 个 106 位 的 乘积 ， 以 进位 保留 形式 保存 结 
果 。 并 行 地 ，53 位 加 数 C 有 条 件 地 反 转 并 对 齐 到 106 位 乘积 。106 位 乘积 的 和 与 进位 结果 通过 一 
个 161 位 宽 的 进位 保留 加 法 器 (CSA) ， 与 一 个 对 齐 的 加 数 相 加 。 在 一 个 进位 传播 加 法 器 中 ， 进 
位 保留 输出 这 时 加 到 一 起 ， 以 产生 一 个 未 含 人 、 无 元 余 、 二 的 补 码 形式 的 结果 。 结 果 绸 有 条 件 地 
求 补 ， 以 便 返 回 一 个 符号 数值 形式 的 结果 。 对 求 补 的 结果 进行 规格 化 ， 然 后 进行 合 人 以 匹配 目标 


格式 。 







对 齐 移 位 器 指数 比较 


Shifted 161 
C 








和 
4 波 进 位 加 法 器 
规格 化 器 


合 入 器 


A-6-2 双 精 度 融 合 乘 加 (FMA) 单元 
硬件 实现 双 精 度 浮 点 A xB+C。 


A.7 资料， NVIDIA GeForce 8800 


NVIDIA GeForce 8800 于 2006 年 11 月 上 市 ， 是 一 个 统一 的 顶点 和 像素 处 理 器 设计 ， 也 支持 使 
用 CUDA 并 行 编程 模型 编写 的 C 语言 的 并 行 计算 应 用 。 它 是 A. 4 节 和 Lindholm、Nickolls、Ober- 
man 和 Montrym [2008」 中 描述 的 Tesla 统 -- 图 形 和 计算 架构 的 首次 实现 。 一 系列 Tesla 架构 GPU 
满足 了 笔记 本 电脑 、 桌 面 电 脑 、 工 作 站 和 服务 器 的 不 同 需求 。 


A.7. 1 流 处 理 器 阵列 (SPA) 


图 A-7-1 中 展示 的 GeForce 8800 GPU 包含 组 织 成 16 个 流 多 处 理 器 (SM) 的 128 个 流 处 理 器 
(SP) 核 。 每 个 纹理 /处 理 器 集群 (TPC) 中 的 两 个 SM 共享 一 个 纹理 单元 。 一 个 由 8 个 TPC 组 成 
的 阵列 构成 流 处 理 器 阵列 (SPA) ，SPA 执行 所 有 图 形 泻 染 程序 和 计算 程序 。 

主机 接口 单元 通过 PCI- Express 总 线 与 主机 CPU 通信 ， 检 查 命令 的 连贯 性 ， 并 完成 上 下 文 
切换 。 输 入 装配 单元 收集 几何 原 语 (点 、 线 和 三 角形 )。 工 作 分 配 模 块 分 发 项 点、 像素 和 计算 
线程 阵列 到 SPA 中 的 TPC。TPC 执行 顶点 、 几何 泻 染 程序 和 计算 程序 。 输 出 集合 数据 被 发 送 
到 视点 /修剪 /建立 /光栅 /2 剔除 模块 ， 光 栅 化 成 像素 段 ， 之 后 重新 分 发 到 SPA 中 ， 以 执行 像素 
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泻 染 程序 。 演 染 后 的 像素 被 ROP 单元 通过 内 部 互联 网 络 发 送 以 进行 处 理 。 网 络 也 将 从 SPA 来 
的 纹理 存储 器 读 请 求 路 由 到 DRAM， 并 将 从 DRAM 通过 一 -个 2 级 cache 读 出 的 数据 路 由 
回 SPA。 





GPU 
一 


视点 /修剪 / 建 
立 / 光 栅 /Z 别 除 











A-7-1 NVIDIA Tesia 统一 的 图 形 和 计算 GPU 构架 

GeForce 8800 具有 128 个 流 处 理 器 (SP) 核 在 16 个 流 多 处 理 器 (SM) 中， 被 组 织 成 8 个 纹理 /处 理 器 入 

(ITPC) 。 处 理 器 通过 一 个 内 部 互联 网 络 与 6 个 64 位 宽 的 DRAM 分 区 相连 。 其 他 的 GPU 改变 SP 核 、SM、 
DRAM 分 区 和 其 他 单元 的 数量 ,实现 Tesla 架构 。 


A. 7.2 纹理 /处 理 器 徐 (TPC) 


每 个 TPC 包含 一 个 几何 控制 器 、 一 个 SM 控制 器 (SMC) 、 两 个 流 多 处 理 (SM) 和 一 个 纹理 
单元 ， 如 图 A-7-2 所 示 。 

几何 控制 器 通过 指挥 TPC 中 所 有 原 语 和 顶点 属性 和 拓扑 流 ， 将 逻辑 图 形 顶 点 流水 线 映射 成 
物理 SM 上 的 不 断 循 环 。 

SMC 控制 多 个 SM， 仲 裁 共享 纹理 单元 、load/store 路 径 和 1/O0 路 径 。SMC 同时 服务 三 个 图 形 
工作 负载 : 顶点 、 几 何 和 像素 。 

纹理 单元 每 时 钟 周期 为 一 个 项 点、 几何 、 像 素 方块 或 四 个 计算 线程 处 理 一 条 纹理 指令 。 
纹理 指令 的 源 是 纹理 坐标 ， 输 出 是 加 权 的 采样 值 ， 典 型 地 是 -- 个 4 元 素 (RGBA) 浮 点 颜色 。 
纹理 单元 是 深度 流水 的 。 尽 管 它 包含 一 个 流 cache 以 捕捉 过 滤 的 局 部 性 ， 它 的 流 命中 与 无 停顿 
的 缺失 混合 。 
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A-7-2 纹理 /处 理 器 集群 (TPC) 和 一 个 流 多 处 理 融 (SM) 
每 个 SM 有 8 个 流 处 理 器 (SP) 核 、 两 个 SFU 和 一 个 共享 存储 器 。 


A.7.3 流 多 处 理 器 (SM) 


SM 是 -- 个 统一 的 图 形 和 计算 多 处 理 器 ， 执 行 顶点 、 几 何 、 像 素 段 演 染 程序 和 并 行 计 算 程 
序 。SM 由 8 个 SP 线程 处 理 器 核 ， 两 个 SFU， 一 个 多 线程 取 指 和 发 射 (MT 发 射 ) ， 一 个 指令 
cache ， 一 个 只 读 常量 cache 和 一 个 16 KB 读 写 共享 存储 器 组 成 。 它 为 单独 线程 执行 标量 指令 。 

GeForce 8800 极端 情况 下 使 SP 核 和 SFU 运行 在 1.5 GHz， 可 达到 每 SM 36 GFLOPS 的 峰值 速 
度 。 为 了 对 功 耗 和 面积 进行 有 效 的 优化 ， 一 些 SM 的 非 数据 路 径 单元 以 SP 时 钟 频率 的 半数 运行 。 

在 运行 几 个 不 同 的 程序 时 ， 为 了 有 效 地 执行 数 百 个 并 行程 序 ，SM 是 硬件 多 线程 的 。 它 用 硬 
件 管理 和 执行 最 高 达 768 个 并 发 线程 ， 调 度 开销 为 0。 每 个 线程 拥有 它 自 己 的 线程 执行 状态 ， 可 
以 以 独立 的 代码 路 径 执行 。 

一 个 warp 由 最 多 32 个 相同 类 型 的 线程 组 成 ， 类 型 可 为 顶点 、 几 何 、 像 素 或 计算 。SIMT 设 
计 ， 曾 在 A.4 节 中 描述 ， 有 效 地 在 32 个 线程 间 共 享 SM 取 指 和 发 射 单元 ,但 需要 活动 线程 的 一 
个 满 的 warp， 以 获得 全 部 的 性 能 效率 。 

SM 同时 调度 和 执行 多 个 warp。 每 个 发 射 周 期 ， 调 度 器 从 24 个 warp 中 选择 一 个 ， 执 行 一 条 
SIMT warp 指令 。 一 条 发 射 后 的 warp 指令 以 4 组 8 线程 在 4 个 处 理 器 周期 上 执行 。SP 和 SFU 单元 
独立 地 执行 指令 ， 并 通过 在 轮流 的 时 钟 周 期 上 在 它们 之 间 发 射 指令 ， 调 度 器 可 以 保证 它们 均 满 
负荷 工作 。 一 个 记分 板 用 来 限定 每 周期 中 每 个 warp 的 发 射 。 指 令 调度 器 对 所 有 的 就 绪 warp 按 优 
先 级 排序 ， 并 选择 一 个 具有 最 高 优先 级 的 进行 发 射 。 优 先 级 依据 warp 类 型 、 指 令 类 型 和 对 SM 中 
所 有 的 warp 执行 “公平 ”进行 设置 。 

SM 以 多 个 并 发 warp 的 方式 执行 协作 线程 组 ( CTA) ， 它 们 访问 一 个 为 CTA 动态 申请 的 共享 
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存储 器 区 域 。 


A. 7.4 指令 集 

线程 执行 标量 指令 ， 而 不 像 先 前 的 CPU 向 量 指令 架构 。 标 量 指令 简单 且 易 于 编译 。 纹 理 指 
令 仍 旧 是 基于 向 量 的 ， 接 受 一 个 源 坐 标 向 量 并 返回 一 个 经 过 滤 的 颜色 向 量 。 

基于 寄存 器 的 指令 集 包括 所 有 的 浮 点 和 整数 算术 、 超 越 、 逻 辑 、 流 控制 、 存 储 器 load/store 
和 图 A-4-3 PTX 指令 表 中 列 出 的 纹理 指令 。 存 储 器 load/store 指令 使 用 整数 字 节 寻 址 ， 使 用 寄存 
右 加 偏 移 地 址 算法 。 为 了 进行 计算 ,load/store 指令 访问 三 个 可 读 写 存储 器 空间 : 每 个 线程 的 局 
部 人 存储器、 私有 和 临时 数据 ; 用 于 CTA 中 的 线程 进行 低 延 时 每 CTA 数据 共享 的 共享 存储 器 ; 用 
于 在 所 有 线程 间 进 行 数据 共享 的 全 局 存储 器 。 计算 程序 使 用 快速 的 椰 障 同步 指令 bar.sync 同步 
CTA 中 的 线程 ， 这 些 线程 通过 共享 和 全 局 存储 器 互相 通信 。 最 近 的 Tesla 架构 GPU 实现 了 PTX 原 
子 存 储 器 操作 ， 这 使 得 并 行 简化 和 并 行 数据 结构 管理 更 为 便利 。 


A. 7.5 流 处 理 器 (SP) 


如 A.4 节 中 介绍 的 那样 ， 多 线程 SP 核 是 主要 的 线程 处 理 器 。 它 的 寄存 器 文件 为 最 多 可 达 96 个 
线程 ( 比 A.4 节 中 的 示例 SP 更 多 的 线程 ) 提供 1024 个 标量 32 位 寄存 器 。 它 的 浮 点 加 和 乘 操作 与 
单 精度 浮 点 数 的 正 FF 754 标准 兼容 ,包括 非 数值 (NaN) 和 无 穷 值 。 加 和 乘 操作 使 用 IEEE 的 最 接 
近 偶数 伟人 作为 默认 的 含 人 模式 。 该 SP 核 也 实现 了 所 有 的 32 位 和 64 位 整数 算术 、 比 较 、 转 换 和 图 
4-4-3 中 的 逻辑 PIX 指令 。 该 处 理 器 是 完全 流水 的 ， 且 对 延 时 进行 了 优化 以 平衡 延迟 和 面积 。 


A. 7.6 特殊 功能 单元 (SFU) 


SFU 支持 超越 函数 和 平面 属性 插值 两 者 的 计算 。 如 A.6 节 中 所 述 ， 它 使 用 基于 增强 最 小 逼 
近 的 二 次 插值 ， 以 每 时 钟 周期 一 个 结果 的 速度 ， 来 近似 倒数 、 倒 数 平方 根 、 log,x 、2” 、sin 和 cos 
晃 数 。SFU 也 支持 以 每 时 钟 周期 四 个 采样 的 像素 属性 插值 ， 如 颜色 、 深度 和 纹理 坐标 。 


A.7.7 光栅 化 


从 SM 来 的 几何 原 语 以 它们 最 初 的 轮 询 输入 次 序 到 达 视 点 /修剪 /建立 /光栅 /Z 剔除 模块 。 视 
反 和 修剪 单元 将 原 语 修剪 成 视点 平 截 头 体 ， 和 任何 使 能 的 用 户 修剪 平面 ， 然后 将 顶点 转换 成 屏 
蒂 (像素 ) 空间 。 

留 下 的 元 素 这 时 前 往 建立 单元 ， 在 那儿 为 光栅 产生 边缘 方程 。 一 个 粗 光 栅 化 阶段 产生 所 有 
人 至少 部 分 位 于 原 语 内 部 的 像素 瓦 片 。Z 剔除 单元 维持 一 个 层次 化 的 z 表面 ， 如 果 确 定 一 个 像素 瓦 
片 被 先前 绘制 的 像素 所 遗 蔽 ， 则 拒绝 它们 。 拒 绝 速率 最 高 可 达 每 时 钟 256 像素 。 从 Z 噜 除 中 保留 
下 来 的 像素 这 时 进入 一 个 细 光 机 化 阶段 产生 详细 的 覆盖 信息 和 深度 值 。 

深度 测试 和 更 新 可 以 在 自演 染 之 前 或 之 后 进行 ， 根 据 当前 状态 决定 。SMC 聚集 保留 下 来 的 
像素 到 warp 中 ， 由 一 个 运行 着 当前 像素 泻 染 的 SM 处 理 。SMC 然后 将 保留 下 来 的 像素 和 相关 的 
数据 发 送 到 ROP。 


A 7 8 光栅 操作 处 理 器 (ROP) 和 存储 系统 


每 个 ROP 都 有 一 个 特定 的 存储 器 分 区 与 之 相配 。 对 于 每 一 个 由 像素 泻 染 程序 发 射 的 像素 段 ， 
ROP 执行 深度 和 模板 测试 与 更 新 ， 同 时 进行 颜色 混合 与 更 新 。 采用 无 损 颜 色 压 缩 (最 高 达 8: 1 ) 
和 深度 压缩 (最 高 达 8: 1) 减 小 DRAM 带宽 需求 。 每 个 ROP 峰值 速度 为 每 时 钟 4 个 像素 ， 并 支 
持 16 位 浮 点 和 32 位 浮 点 HDR 格式 。ROP 文 持 在 禁 秆 颜色 写 时 双 速 率 的 深度 处 理 。 

反 混 清文 持 包括 高 达 16 x 的 多 采样 和 超 采 样 。 履 盖 采 样 反 混 消 (CSAA) 算法 计算 并 存储 高 
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达 16 个 采样 的 布尔 覆盖 ， 并 压缩 元 余 颜 色 、 深 度 和 模板 信息 到 4 或 8 采样 的 存储 种 空间 和 带宽 ， 
以 提高 性 能 。 

DRAM 存储 器 数据 总 线 宽度 为 384 针 ， 安 排 成 6 个 独立 的 分 区 ， 每 个 64 针 。 每 个 分 区 支持 
在 高 达 1.0 GHz 频率 上 ， 双 数据 率 DDR2 和 面向 图 形 的 CDDR3 协议 ,产生 的 带宽 约 为 每 分 区 
16 GB/s 或 96 GB/s。 

存储 控制 器 支持 较 宽 范围 的 DRAM 时 钟 频率 、 协 议 、 器 件 密度 和 数据 总 线 宽 度 。 纹 理 和 
load/store 请 求 可 以 在 任何 TPC 和 任何 存储 分 区 发 生 ， 因 此 有 一 个 互联 网 络 用 于 路 由 请 求 和 回应 。 


A. 7.9 可 扩展 性 


Tesla 统一 架构 是 为 可 扩展 而 设计 和 的。 改变 SM、TPC、ROP、cache 和 存储 器 分 区 的 数量 ， 为 
GPU 市 场 区 域 的 不 同性 能 和 成 本 提供 了 合适 的 均衡 。 可 扩展 连接 互联 (SLI) 连接 多 个 GPU， 提 
供 进 一 步 的 可 扩展 性 。 


A.7. 10 ”性 能 


GeForce 8800 在 极限 情况 下 ， 为 达到 576 GFLOPS 的 理论 操作 峰值 ， 以 1.5 GHz 的 时 钟 驱 动 SP 
线程 处 理 器 核 和 SFU。GeForce 8800 GTX 具有 1. 35 GHz 的 处 理 器 时 钟 和 相应 的 518 GFLOPS 的 峰值 。 

接 下 来 的 三 节 ， 以 三 个 不 同 的 应 用 一 一 密集 线性 代数 、 快 速 伟 里 叶 变 换 和 排序 比较 GeForce 
8800 CPU 和 一 个 多 核 CPU。GPU 程序 和 库 是 编译 过 的 CUDA C 代码 。CPU 代码 使 用 单 精度 多 线 
程 Intel MKL 10. 0 库 来 补充 SSE 指令 集 和 多 核 。 


A.7. 11 密集 线性 代数 性 能 


密集 线性 代数 计算 在 众多 应 用 中 都 是 基本 的 计算 。Volkov 和 Demmel [2008] 给 出 了 在 单 精度 
密集 矩阵 -矩阵 乘法 (SGEMM 例 程 ) 和 LU、QR 和 Cholesky 和 矩阵 分 解 方面 ，GPU 和 CPU 的 性 能 结 
采 。 图 A-7-3 对 GeForce 8800 GTX GPU 和 4 核 CPU， 在 SGEMM 密集 矩阵 -矩阵 乘法 上 的 GFLOPS 速 
率 进行 了 比较 。 图 A-7-4 对 一 个 GPU 和 一 个 4 核 CPU 在 矩阵 分 解 上 的 GFLOPS 速率 进行 了 比较 。 
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图 A-7-3 SGEMM 密集 矩阵 -矩阵 乘法 性 能 速率 
图 中 展示 了 单 精度 正方 N x N 矩阵 乘 ( 实 线 ) 和 稀 榴 Nx64 和 64 xN 和 矩阵 (点 线 ) 的 GFLOPS 速率 。 根 
据 Volkov 和 Demmel [2008] 的 图 6 改编 。 黑 线 是 1.35 CHz GeForce 8800 GTX， 使 用 GPU 存储 器 中 的 Volkov 
的 矩阵 SGEMM 代码 (现在 在 NVIDIA CUBLAS 2 0 中 )。 灰 线 是 4 核 2. 4 GHz Intel Core2 Quad 06600，64 位 
Linux ,使 用 CPU 存储 器 中 Intel MKL 10. 0 矩阵 代码 。 
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图 A-7-4 ”密集 矩阵 分 解 性 能 速率 
图 中 展示 了 单独 使 用 CPU 和 CPU 在 矩阵 分 解 方面 获得 的 GFLOPS 性 能 。 根 据 Volkov 和 Demmel [2008] 的 
图 7 改编 。 黑 线 是 1. 35 GHz NVIDIA GeForce 8800 GTX，CUDA 1. 1 ，Windows XP， 连 接 到 一 个 2.67 GHz Intel 


Core2 Duo E6700 Windows XP， 包 括 所 有 的 CPU- GPU 数据 传输 时 间 。 灰 线 是 4 核 2.4 GHz Intel Core2 Quad 
Q6600，64 位 Linux ，Intel MKL 10. 0。 


由 于 SGEMM 密集 怎 阵 -矩阵 乘法 和 类 BLAS3 例 程 都 是 大 批 的 矩阵 分 解 中 的 工作 ， 它 们 的 性 
能 设 定 了 因子 分 解 速率 的 上 限 。 由 于 矩阵 阶 数 的 增加 超过 了 200 ~ 400， 因 子 分 解 问题 变 得 足够 
大 ， 以 至 于 SGEMM 可 以 补充 GPU 的 并 行 度 ， 并 克服 CPU- GPU 系统 和 复制 开销 。Volkov 的 
SGEMM 矩阵 -矩阵 乘法 获得 了 206 GFLOPS， 大 约 60% 的 GeForce 8800 GTX 峰值 乘 加 速率 ， 而 QR 
因子 分 解 达到 了 192 GFLOPS, 约 为 4 核 CPU 的 4.3 倍 。 


A. 7. 12 FFT 性 能 


在 众多 应 用 中 都 用 到 了 快速 傅 里 叶 变 换 。 大 的 变换 和 多 维度 变换 被 分 解 成 一 批 小 的 1D 变换 。 
A-7-5 对 1. 35 GHz GeForce 8800 GTX (2006 年 下 半年 生产 ) 和 2.8 GHz 4 核 Intel Xeon 
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一 次 变换 中 无 素 的 数量 
A-7-5 ”快速 傅 里 叶 变 换 吞 吐 量 性 能 
图 中 对 批量 一 维 复杂 FFT 变换 在 1. 35 GHz GeForce 8800 GTX 和 4 核 2.8 GHz Intel Xeon E5462 系列 (代号 
“Harpertown”) ，6 MB 二 级 缓存 ，4 GB 内 存 ，1600 FSB， 红 帽子 Linux，Intel MKL 10.0 上 的 性 能 进行 了 比较 。 
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E5462 系列 (代号 “Harpertown”，2007 年 下 半年 生产 ) 的 原 地 1D 复杂 单 精度 FFT 性 能 进行 了 比 
较 。CPU 性 能 使 用 四 线程 的 Intel 数学 核心 库 (MKL) 10.0 FFT 进行 测量 。GPU 性 能 使 用 
NVIDIA CUFFT 2. 1 库 和 一 批 十 六 进 制 频 分 FFT 进行 测量 。CPU 和 GPU 的 否 吐 量 性 能 均 使 用 批量 
FFT， 一 - 批 的 大 小 为 2”/n， 其 中 是 转换 的 大 小 。 因 此 ， 每 个 转换 大 小 的 负载 是 128 MB。 为 决 
定 GFLOPS 速率 ， 每 次 转换 的 操作 数 采 用 5nlog,n。 


A.7.13 排序 性 能 


与 刚刚 讨论 的 应 用 相反 ， 在 并 行 线程 中 排序 需要 更 多 的 真实 坐标 ， 且 并 行 扩 展 相 应 更 难 获 
得 。 不 过 ， 多 种 著名 的 排序 算法 可 以 被 高 效 地 并 行 化 ， 以 在 GPU 上 良好 地 运行 。Satish 等 
[2008 ] 详细 说 明了 CUDA 中 排序 算法 的 设计 ， 且 他 们 报告 的 基数 排序 结果 概括 如 下 。 

图 A-7-6 对 GeForce 8800 Ultra 和 8 核 Intel Cloverdown 系统 的 并 行 排序 性 能 进行 了 比较 ， 它们 
都 是 2007 年 上 半年 生产 的 。CPU 核 分 布 于 两 个 物理 插座 之 间 。 每 个 插座 包含 一 个 具有 双 Core2 
必 片 的 多 片 模块 ， 且 每 片 具 有 4 MB 的 二 级 缓存 。 所 有 的 排序 例 程 都 按键 - 值 对 进行 排序 设计 ， 且 
键 和 值 两 者 都 是 32 位 整数 。 被 研究 的 主要 算法 是 基数 排序 ， 尽管 在 比较 中 也 包括 了 Intel 线程 构 
建 块 提供 的 基于 快速 排序 的 parallel_sort () 程 序 。 基 于 CPU 的 两 个 基数 排序 代码 中 的 一 个 ， 仅 
使 用 标量 指令 集 ， 其 余 利用 手工 保守 优化 的 汇编 例 程 ， 这 些 汇编 例 程 利用 SSE2 SIMD 向 量 指令 。 


CPU quick sort 一 十 一 CPU radix sort (scalar ) 
GPU radix Sort ”一 全 -一 CPUradix sort (SIMD 
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A-7-6 并行 排序 性 能 
该 图 对 在 GeForce 8800 Ultra 和 8 核 2. 33 GHz Intel Core2 Xeon E5345 系统 上 实现 的 并 行 基数 排序 的 性 能 进行 了 比较 。 
图 形 说 明了 进行 一 系列 排序 的 速率 一 一 定义 成 排序 的 元 素数 除 以 排序 时 间 。 从 图 A-7-6 可 以 
直观 地 看 出 ， 对 于 所 有 8 K 和 更 大 的 元 素 序列 ，GPU 基数 排序 获得 了 最 高 的 排序 速率 。 在 这 个 范 
围 中 ， 与 使 用 8 个 可 用 的 CPU 核 相 比 ， 平 均 比 快速 排序 例 程 快 2.6 倍 ， 大 约 比 基数 排序 例 程 快 2 
信 。CPU 基数 排序 性 能 变化 很 大 ， 似 乎 是 其 全 局 交换 、cache 局 部 性 较 差 的 原因 。 


A. 8 资料 ， 将 应 用 映射 到 GPU 
多 核 CPU 和 众 核 GPU 的 到 来 意味 着 主流 处 理 器 芯片 现在 都 是 并 行 系统 。 而 且 ， 它 们 的 并 行 
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性 仍 以 摩尔 定律 持续 扩展 。 挑 战 是 开发 主流 视觉 计算 和 高 性 能 计算 应 用 程序 ， 透 明 地 扩展 它们 
的 并 行 度 以 利用 增加 的 处 理 器 核 数量 ， 像 许多 3D 图 形 应 用 透明 地 扩展 它们 的 并 行 度 到 核心 数量 


广泛 变化 的 GPU 上 。 
本 节 给 出 了 使 用 CUDA 映射 可 扩展 并 行 计算 应 用 到 GPU 上 的 例子 。 


A. 8.1 稀疏 矩阵 


很 多 种 类 的 并 行 算法 可 以 使 用 CUDA 以 相当 直截了当 的 方式 编写 ， 甚 至 当 包含 的 数据 结构 不 
是 简单 规则 的 网 格 时 也 可 以 。 稀 朴 和 矩阵 向 量 乘法 (SpMV) 是 重要 的 数字 构建 块 中 一 个 很 好 的 例 
子 ， 通 过 CUDA 提供 的 抽象 能 力 ， 这 些 主要 的 数字 构建 块 可 以 被 相当 直接 地 并 行 化 。 我 们 下 面 讨 
论 的 核心 是 ， 当 与 提供 的 CUBLAS 向 量 例 程 结合 时 ， 使 循环 求解 的 编写 〈 如 共 斩 梯度 方法 ) 变 
得 更 为 直接 。 

na xz 的 称 玖 矩阵 是 指 ， 和 矩阵 中 非 零 元 素 的 个 数 mw 仅 占 总 元 素 个 数 的 一 小 部 分 。 稀 朴 和 矩阵 表 
示 法 寻求 存储 一 个 矩阵 的 非 零 元 素 。 由 于 相当 典型 ， 一 个 mn” x n 稀 玖 和 矩阵 将 仅 包含 m=0(n) 个 
非 零 元 素 ， 这 表明 可 在 存储 空间 和 处 理 时 间 上 有 实质 的 节省 。 

一 般 无 结构 稀疏 矩阵 的 最 普通 表示 方法 之 一 是 压缩 的 稀疏 行 (CSR) 表示 法 。 和 矩阵 4 中 普 
个 非 零 元 素 以 行 优先 的 顺序 存储 到 数组 av 中 。 第 二 个 数组 Aj 为 av 的 每 个 条 目 记 录 相 应 的 列 索 
引 。 最 后 ,一 个 具有 n +1 元素 的 数组 ap 记录 前 面 数 组 每 行 的 范围 ; aj 和 av 中 行 i 的 条 目 从 索 
引 ap[i] 向 上 扩展 得 到 ， 但 却 不 包括 索引 Ap[ i +1]。 这 意味 着 ap[0] 将 总 是 0，apfn] 将 总 是 矩阵 
中 非 零 元 素 的 个 数 。 图 A-8-1 给 出 了 一 个 简单 矩阵 的 CSR 表示 的 例子 。 
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A-8-1 压缩 稀疏 行 (CSR) 矩阵 
a) 示例 矩阵 A ; b) 示例 矩阵 的 CSR 表示 
给 定 一 个 CSR 形式 的 矩阵 4 和 一 个 向 量 x， 使 用 图 A-8-2 中 展示 的 multiply_row () 程 序 ， 我 们 
可 以 计算 一 个 单行 乘积 y=4x。 那么 计算 完全 乘积 仅仅 是 在 所 有 行 上 循环 并 使 用 muitiply row() 计 
算 那 行 的 结果 ， multiply_row() 的 捉 行 C 代码 在 图 A-8-3 中 给 出 。 








float multiply row(unsigned int rowsize, : 
unsigned int *Aj，// : 列 索 引 
float *Av, // 非 零 项 
float *x) // RHS 同 基 








float sum = 0; 






for(unsigned int column=0; column<rowsize; ++Column) 
Sum += Avilcolumn]} +* xX[Aj[column]]s; 







return sunm: 


图 A-8-2 一 个 单行 稀疏 矩阵 向 量 乘 的 串 行 C 代码 
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void csrmul serial (unsigned int *Ap, unsigned int *Aj, 
float *Av, unsigned int num rows, 
float *x, float *y) 












for(unsigned int row=0; row<num rows; ++row) 
{ 

unsigned int row begin = Ap[row]; 
unsigned int row end = Ap[row+l]; 








yirow] = multiply_ row!(row end-row begin, Ajtrow begin, 
Avi+row begin, x);} 





图 A-8-3 ”稀疏 矩阵 向 量 乘 的 串 行 代码 


该 算法 可 以 很 容易 地 转化 成 一 个 并 行 CUDA 内 核 。 我 们 仅 将 csrmul serial () 中 的 循环 展开 
到 众多 并 行 线程 上 。 每 个 线程 将 恰好 计算 输出 向 量 y 中 的 一 行 。 该 内 核 的 代码 在 图 A-8-4 中 给 
出 。 注 意 ， 它 看 上 去 与 csrmul_serial () 程序 中 的 串 行 循环 非常 相似 ， 但 实际 上 有 两 点 不 同 。 首 
先 ， 每 线程 的 行 索 引 从 为 每 线程 分 配 的 块 和 线程 索引 计算 得 到 ， 消 除了 for 循环 ， 其次， 我们 有 
一 个 条 件 ， 计 算 一 行 的 乘积 仅 当 行 索引 在 矩阵 的 界限 内 (这 是 必要 的 ， 因 为 行 数 n 无 需 是 运行 
内 核 时 块 大 小 的 倍数 ) 。 


__9global _ 

void csrmul kernel (unsigned int *Ap, unsigned int *A, 
float *Av, unsigned int num rows, 
float *x, float *y) 


unsigned int row = blockIdx.x*blockDim.x + threadlidx.x; 


if( row<num rows ) 

{ 
unsigned int row begin = Apf{row]; 
unsigned int row end = Ap[row+l1]; 


Y[row] = multiply_row(row end-row begin, Aj+row begin, 
Av+row begin, x); 





图 A-8-4 笑 玻 答 阵 向 量 乘 的 CUDA 版 本 
假定 矩阵 数据 结构 已 经 复制 到 了 GPU 的 设备 存储 器 中 ， 运 行 该 内 核 将 会 如 下 : 


unsigned int blocksize = 128; // 最 多 512 的 任何 大 小 
unsigned int nblocks = (num rows + blocksize - 1) / blocksize; 


csrmul kernel <<<nblocks.blocksize >>> (Ap, Aj, Av, Num rows, x, y): 


我 们 在 此 看 到 的 模式 是 非常 普通 的 一 个 。 最 初 的 串 行 算法 是 一 个 循环 ， 它 的 迭代 彼此 独立 。 
这 样 的 循环 可 以 很 容易 地 并 行 化 ， 通过 简单 地 指派 循环 中 的 一 个 或 多 个 迭代 到 每 个 并 行 线程 。 
CUDA 提供 的 编程 模型 使 得 表示 该 类 的 并 行 极 为 直接 。 

这 个 将 计算 分 解 成 独立 工作 块 的 普通 策 路 ， 和 更 加 明确 的 分 解 独立 循环 和 代 ， 并 不 是 CUDA 
所 独 有 的 。 这 是 在 包括 OpenMP 和 Intel 的 线程 构建 块 的 多 种 并 行 编程 系统 中 ， 以 一 种 形式 或 其 
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他 形式 使 用 的 公共 方法 。 


A. 8.2 在 共享 存储 器 中 进行 缓存 


上 面 概述 的 SpMV 算法 是 相当 简化 的 。 在 CPU 和 GPU 代码 中 都 可 以 进行 多 种 优化 ， 以 提高 
性 能 ， 包 括 循 环 展开 、 和 矩阵 重 排 和 寄存 器 分 块 。 并 行内 核 也 可 以 根据 Sengupta 等 [2007」 提出 
的 数据 并 行 扫描 操作 重新 实现 。 

CUDA 所 揭露 的 一 个 重要 的 体系 结构 特征 是 ， 每 块 共享 存储 的 存在 ， 该 共享 存储 是 一 个 小 的 具 
有 极 低 延 迟 的 片上 存储 器 。 利 用 该 存储 器 的 优势 ， 可 以 获得 实质 的 性 能 提升 。 这 样 做 的 一 个 普通 方 
法 是 将 共享 存储 器 作为 一 个 软件 管理 的 cache 来 保持 频繁 重用 的 数据 。 使 用 共享 存储 的 修改 在 图 
A-8-5 中 说 明 。 








_ global _ 
void csrmul cached(unsigned int *Ap, unsigned int *A]j ， 
float *Av, unsigned int num rows, 

const float *x, float *y) 








// Cache the rows of XI corresponding to this block. 
_ shared _ float cachelblocksize]; 







unsigned int block begin = blockIdx.x * plockDim.x; 


unsigned int block end block begin + blockDim.x; 






unsigned int row = block begin + threadIdx.x; 






// Fetch and cache our window of x[]. 
if{ row<num rows) cacheithreadIdx.x] = x!row]; 





__ syncthreads();} 









if( row<num rows ) 
{ 
unsigned int row begin = ApPIrow]， 






unsigned jint row end = Aplrow+1i]; 






float sum = 0, x j; 






for(unsigned int col=row begin; Col<row énd; ++col) 
| 







unsigned int ] = Aj{[col]; 






// Fetch x j from our cache when possible 
if( j>=block begin && j<block end ) 
x 1 = cache[i-block pbegin]; 






Else 






x j = x[j]; 





Sum += Av[Col] * x j; 





} 


ylrow] = sum; 






图 A-8-5 稀疏 抢 阵 向 量 乘 法 的 共享 存储 器 版 本 


在 稀疏 矩阵 靳 法 的 上 下 文中 ， 我 们 观察 到 4 的 数 行 可 能 使 用 一 个 特殊 的 矩阵 元 素 x[i]。 在 
许多 普通 场合 ， 特 别 地 在 矩阵 重 排 后 ， 使 用 x[ i] 的 行将 是 与 行 i 接近 的 行 。 我 们 可 以 因此 实现 
一 个 简单 的 缓存 方案 ， 并 期 待 获 得 一 些 性 能 好 处 。 处 理 行 i 所 有 j 的 线程 块 将 把 x[ i] 行 所 有 x[j] 
装 进 共享 存储 器 。 我 们 将 展开 multiply_row() 循 环 并 在 任何 可 能 的 时 候 从 cache 中 预 取 x 的 元 素 。 
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结果 代码 如 图 A-8-5 所 示 。 共 享 人 存储 器 也 可 以 用 来 进行 其 他 优化 ， 如 从 一 个 临近 线程 取 Ap[ row +1] 
而 不 是 再 次 从 存储 器 中 取 。 

由 于 Tesla 架构 提供 显 式 管 理 的 片上 共享 存储 器 ， 而 不 是 隐 含 激活 硬件 cache， 增 加 此 类 优化 
是 相当 普遍 的 。 尽 管 这 可 能 给 程序 员 增 加 了 一 些 额外 的 开发 负担 ,但 其 负担 相对 较 小 ， 却 能 得 到 
实质 的 性 能 提升 。 在 上 面 的 示例 中 ， 甚 至 简单 使 用 共享 存储 器 在 表示 由 3D 表面 网 格 得 来 的 矩阵 
上 就 获得 了 大 约 20% 的 性 能 提升 。 显 式 管 理 的 存储 器 有 取代 隐 式 cache 的 可 能 ， 并 且 它 还 具有 组 
存 和 预 取 策略 可 根据 应 用 需求 进行 裁剪 的 优点 。 

这 些 是 相当 简单 的 内 核 ， 目 的 是 阐明 编写 CUDA 程序 的 基本 技术 ， 而 不 是 怎样 获得 最 大 的 性 
能 。 众 多 可 能 的 优化 方法 都 是 可 用 的 ，Williams 等 [2007] 在 少数 不 同 的 多 核 结 构 上 ， 对 其 中 的 
一 些 进 行 了 探索 。 然 而 ,调查 这 些 即 便 是 简化 内 核 的 可 比较 的 性 能 仍 具 有 指导 意义 。 在 一 个 
2 GHz Intel Core2 Xeon E5335 处 理 器 上 ， 对 于 一 组 从 使 用 三 角形 绘制 的 3D 表 网 格 获得 的 拉 普 拉 
斯 矩阵 ; Csrmul serial () 核 大 约 以 每 秒 2. 02 亿 非 零 处 理 的 速度 运行 。 使 用 Intel 线程 构建 块 提供 
的 parallel_for 结 构 将 该 内 核 并 行 化 ， 在 2、4 和 8 核 的 机 器 上 可 分 别 获 得 2.0、2.1 和 2.3 倍 的 
加 速 。 在 一 个 GeForce 8800 Ultra 上 ， csrmul_ kernel () 和 csrmul cached () 内 核 获得 大 约 每 秒 772 
和 92 000 万 非 零 的 处 理 速率 ， 对 应 的 并 行 加 速 为 单 核 CPU 核 上 串 行 性 能 的 3.8 和 4.6 倍 。 


A. 8.3 扫描 和 归 约 


并 行 扫描 ， 也 被 称 为 并 行 前 级 总 和 ， 是 数据 并 行 算法 [Blelloeh，1990] 最 重要 的 构建 块 之 

一 。 给 定 一 个 = 元素 的 序列 c: 
[ao 0 “人 -1 ] 
和 一 个 二 进 制 联合 操作 人 名， 扫描 函数 计算 如 下 序列 : 
scan(a, 由 ) = [ao,(a Oo), (0 Ba BDa,)] 
作为 一 个 例子 ， 如 果 我 们 将 田 当 成 通常 的 加 操作 ， 这 时 对 输入 数组 应 用 扫描 
a=|[31704163] 
将 产生 部 分 和 序列 : 
scan(a, +) = [3411 11 15 1622 25] 

在 输出 序列 元 素 i 和 输入 元 素 a, 联合 的 场景 中 ， 这 个 scan 操作 是 一 个 包含 scan，。 仅 与 之 前 
的 元 素 联 合 会 产生 一 个 排外 的 scan 操作 ， 也 被 称 为 前 组 总 和 操作 。 

这 个 操作 的 串 行 实现 是 非常 简单 的 。 它 仅 是 一 个 在 整个 序列 上 迁 代 一 次 的 循环 ， 如 图 A-8-6 
所 示 。 


template<class T> 


__host _ T plus scan(lT *x, unsigned int n) 
{ 
for (unsigned int i=]; ic<ny ++i) 


xX[i] = x{i-1] + x[i]; 





A-8-6 串 行 加 扫 撒 模板 


乍 一 看 ， 该 操作 看 来 可 能 是 固有 串 行 的 。 然 而 ， 实际 上 它 可 以 用 并 行 高 效 地 实现 。 关 键 在 
于 ， 由 于 加 操作 是 联合 的 ,我们 可 以 自由 地 改变 元 素 加 到 一 起 的 次 序 。 例如 ， 我 们 可 以 想象 并 行 
地 加 上 多 对 连续 元 素 ， 然 后 ， 将 这 些 部 分 和 加 在 一 起 ， 等 等 。 

实现 的 一 个 简单 方案 来 自 Hillis 和 Steele [1989] 。 他 们 算法 的 一 个 CUDA 实现 在 图 A-8-7 中 
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给 出 。 假 定 输入 数组 x[ 1 恰好 包含 每 个 线程 块 中 线程 的 一 个 元 素 。 它 完成 一 个 循环 的 logsn 次 选 
代 以 将 部 分 和 聚集 到 一 起 。 


| template<class 了 > 
| aevice  T plus scanl(T *x) 
{ 


unsigned int i threadIdx .x; 


unsigned int n = blockDim.x; 


for(unsigned int offset=1l,; offset<n; offset *= 2) 


if(i>=offset)} tt = x[i-offsetil; 
syncthreads{}); 


if(i>=offset) x[i] = t+ x[i]j; 
_ syncthreads (); 

} 

return x[i]; 





A-8-7 CUDA 的 并 行 加 扫描 模板 


为 了 理解 这 个 循环 的 行为 ， 仔 细 考 虑 图 A-8-8， 它 阐明 了 n = 8 线程 和 元 素 的 一 个 实例 。 图 
表 的 每 级 表示 循环 中 的 一 步 。 线 条 指示 数据 取出 的 位 置 。 对 于 输出 的 每 一 个 元 素 (例如 ， 图 中 
的 最 后 一 行 )， 我 们 将 在 输入 元 素 上 构建 一 个 总 和 树 。 边 沿 粗 体 线 说 明 最 后 元 素 的 这 个 总 和 树 的 
形式 。 该 树 的 叶子 都 是 初始 元 素 。 从 任何 输出 元 素 向 上 回溯 说 明 它 联合 了 之 上 所 有 的 输入 值 并 
包括 它 上 自身 。 


x[1]+=x [i—1j; 





XL H=x[i-21]:; 





A-8-8 ”基于 树 的 并 行 扫 找 数 据 参 考 


尽管 简单 ， 该 算法 没有 我 们 所 希望 的 那样 有 效 。 调 查 串 行 实现 ， 我 们 看 到 ， 它 完成 0(n) 

次 加 法 。 相 反 ， 并 行 实现 完成 0(n log n) 次 加 法 。 由 于 这 个 原因 ， 它 不 能 高 效 地 工作 ， 因 为 计 

算 同样 的 结果 ， 它 要 做 比 串 行 实现 更 多 的 工作 。 幸 运 的 是 ， 还 有 其 他 高 效 的 技术 来 实现 scan。 
更 为 高 效 的 实现 技术 细节 和 这 个 多 块 数组 块 程序 的 扩 展 由 Sengupta 等 [2007] 提供 。 

-在 某 些 场合 ， 我 们 可 能 仅 对 计算 一 个 数组 中 所 有 元 素 的 总 和 感 兴趣 ， 面 不 是 由 scan 返回 的 





x[ij+=x{i-41: 
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所 有 前 织 总 和 序列 。 这 就 是 并 行 归 约 问题 。 我 们 可 以 仅 使 用 一 个 扫描 算法 来 完成 这 个 计算 ,但 归 
约 通 常 可 以 比 扫描 更 为 高 效 地 实现 。 

图 A-8-9 展示 了 使 用 加 法 计算 一 个 归 约 的 代码 。 在 该 例 中 ， 每 个 线程 仅 装 人 输入 序列 的 一 个 
元 素 〈 例 如 ， 它 最 初 对 一 个 长 度 为 1 的 序列 求 和 ) 。 在 归 约 的 最 后 ， 我 们 希望 线程 0 保持 最 初 被 
块 中 线程 装 入 的 所 有 元 素 的 总 和 。 这 个 内 核 中 的 循环 隐 含 地 在 输入 元 素 上 构建 了 一 个 总 和 树 ， 
很 像 上 面 的 扫描 算法 。 
__global 
| void plus reducelint +*input, unsigned jnt N, int *total) 

{ 








unsigned int tid = threadIidx .x; 
unsiqned int i = blockIdx.x*blockDim.x + threadIdx.x: 






// Each block loads its elements into shared memory, padding 
// with 0 if N is not a multiplie of blocksize 







_ ShareQ int x[blocksizel]; 
x[tid] = (i<N) ? input[i] : 0; 
syncthreads () 7 







// Every thread now holds 1 input value in xfT] 
LA 
// Build summation tree over elements. 
forl(int s=blockDim.x/2; s>0; s=s/2) 
( z 
ifltid < s) x[tid] += x[tid + s]; 
__Ssyncthreads ( ) ; 











} 






// Thread 0 now holds the sum of all input values 
// to this block,. Have it add that sum to the running total 
if( tid == 0 ) atomicaAdd (total, x[tid]):; 








图 A-8-9 ”加 归 约 的 CUDA 实现 


在 这 个 循环 的 最 后 ,线程 0 保持 着 被 该 块 装 入 的 所 有 值 的 总 和 。 如 果 我 们 希望 由 total 指向 
的 位 置 的 值 包含 数组 中 所 有 元 素 的 总 和 ， 我 们 必须 结合 网 格 中 所 有 块 的 部 分 和 。 实 现 的 一 种 策 
略 是 使 每 块 将 其 部 分 和 结果 写 人 一 个 第 二 数组 ， 然后 再 次 运行 归 约 内 核 ， 重复 该 过 程 直到 我 们 
将 序列 归 约 成 了 一 个 单个 值 。Tesla GPU 架构 支持 的 ， 一 个 更 有 吸引 力 的 替代 办 法 是 ， 使 
用 atomicada 1() 原 语 ， 一 个 由 存储 器 子 系统 支持 的 高 效 读 一 修改 一 写 原 语 。 这 消除 了 额外 临时 数 
组 和 反复 运行 内 核 的 需要 。 

对 于 并 行 编程 、 突出 每 块 共享 存储 器 的 重要 性 和 在 线程 间 进 行 高 效 协作 的 低 成 本 栅 障 来 说 ， 
并 行 归 约 都 是 一 个 必需 的 原 语 。 如 果 在 片 外 的 全 局 存储 器 中 做 的 话 ， 线程 间 这 种 程度 的 数据 混 
合 将 具有 高 得 惊人 的 代价 。 


A. 8. 4 基数 排序 


扫描 原 语 的 一 个 重要 应 用 是 排序 例 程 的 实现 。 图 A-8-10 中 的 代码 在 一 个 单独 的 线程 块 上 实 
现 了 整数 的 基数 排序 。 它 接收 一 组 为 块 中 的 每 个 线程 包含 一 个 32 位 整数 的 values 作为 输入 。 出 
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于 对 效率 的 考虑 ， 这 个 数组 应 该 被 存储 在 每 个 线程 块 的 共享 存储 器 中 ， 但 对 于 排序 的 正确 运转 


来 说 这 是 不 需要 的 。 





{ 


{ 


__ Gevice 





for(int bit=0; bit<32; ++bit) 


partition by bit(values, bit); 


void radix sort(unsigned int *values) 


syncthreads (); 







图 A-8-10 基数 排序 的 CUDA 代码 


这 是 基数 排序 的 一 个 相当 简单 的 实现 。 它 假定 过 程 partition_by bit () 可用， 该 过 程 对 给 定 
的 数组 进行 划分 ， 以 使 指定 位 为 0 的 所 有 数 出 现在 指定 位 为 1 的 所 有 数 之 前 。 为 了 产生 正确 的 输 


出 ， 这 个 划分 必须 是 稳定 的 。 


实现 划分 程序 是 扫描 的 一 个 简单 应 用 。 线 程 i 持 有 值 x,， 且 必须 计算 正确 的 输出 索引 ， 指 示 
问 哪 儿 写 入 该 值 。 这 样 ， 需 要 计算 中 指派 位 是 1 的 ， 线 程 j<i 的 数量 ， 指派 位 是 0 的 位 的 总 
数 。 partition by bit () 的 CUDA 代码 在 图 A-8-11 中 给 出 。 





{ 
unsigned 
unsigned 
unsigned 
unsigned 


values[i 





Syncth 






if( pi 


else 


图 A-8-11 


_ syncthreads (})，; 


Qevice _ void partition by bit(unsigned int *values, 


17 工 
jint size 
intt X 1 


int p i 





] = pi; 
reads ()， 


// Compute number of T bits up to and including p i. 
// Record the total number of F bits as well. 
unsigned int T before 
unsigned int T total 
unsigned int F total 


// Write every x 1 to its proper place 


) 


values[T beftore-1 + F total] = x i; 


values[i ~ T before] = x i; 





unsigned int bit) 







= threadIidx.xr; 






blockDim,.x; 
= values[il]:; 
= (xX 1 >> pit) & 1; 





















plus_ scan (values}); 






valuesl[lsize-l]; 


| 1 


size ~ T total; 














按 位 划分 数据 的 CUDA 代码 ， 是 基数 排序 的 一 部 分 


一 个 相似 策略 可 以 用 来 实现 一 个 基数 排序 内 核 ， 该 内 核对 一 个 大 长 度数 组 进行 排序 ， 而 不 
仪 古 一 抉 数 组 。 基 本 步骤 保持 了 扫描 过 程 ， 尽 管 计算 在 多 个 内 核 间 划分 时 ， 我 们 必须 使 用 双 缓 冲 
存储 数组 的 值 而 不 是 在 原 地 进行 划分 。 在 大 数组 上 高 效 执行 基数 排序 的 细节 由 Satish、Harris 和 


earland [2008] 提供 。 
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A. 8.5 GPU 上 的 N-Body 应 用 ? 


Nyland 、Harris 和 Prins 【2007] 描述 了 一 种 简单 但 具有 极 高 性 能 且 很 有 用 的 计算 内 核 一 一 
all- pairs N-body 算法 。 对 很 多 科学 应 用 来 说 ， 它 是 一 个 耗 时 的 元 素 。N-body 仿真 计算 多 体系 统 的 
演化 ， 在 该 多 体系 统 中 ， 每 个 体 持续 地 与 每 个 天 其 他 体 相 互 作 用 。 一 个 例子 是 天 体 物 理 仿 真 ， 其 
中 每 个 体 代 表 一 个 独立 的 天 体 ， 并 且 每 个 天 体 用 引力 相互 吸引 。 其 他 例子 是 蛋白 质 折 大， 其 中 
N-body 仿真 用 来 计算 静电 和 van der Waals 力 ; 液体 滑 流 仿真 ; 计算 机 图 形 中 的 全 局 照明 。 

all- pairs N-body 算法 通过 计算 系统 中 的 每 个 pair-wise 力 ， 并 对 每 个 体 求 和 ， 计 算 系 统 中 每 个 
体 上 的 力 的 总 和 。 许 多 科学 家 认为 这 种 方法 是 最 精确 的 ， 仅 存在 来 自 浮 点 硬件 操作 的 精度 损失 。 
缺点 是 它 的 0(”) 计算 复杂 度 ， 对 于 具有 多 于 10* 体 的 系统 来 说 ， 太 大 了 。 为 克服 这 个 大 的 开 
销 ， 提 出 了 几 个 复杂 度 为 O(n log n) 和 0(n) 的 简化 算法 ; 例子 是 Bames- Hut 算法 、 快 速 多 极 
方法 和 Particle- Mesh-Ewald 求 和 。 所 有 的 快速 方法 仍旧 依赖 于 al-pairs 方法 ， 作 为 短 范 围 里 精确 
计算 的 一 个 内 核 ; 因此 ， 它 依然 很 重要 。 

N- Body 数学 

对 于 引力 仿真 ， 使 用 基本 物理 学 计算 body-body 力 。 在 两 个 用 和 j 索引 的 天 体 之 间 ，3D 力 
问 量 是 ; 


mm, 广 ， 
{, = CC 一 一 一 全 X 一 一 全 一 
上 下 


5 


力 的 大 小 以 左边 的 形式 计算 ， 而 方向 以 右边 的 形式 计算 (单位 向 量 从 一 个 天 体 指向 另 一 个 )。 

给 定 一 系列 相互 作用 的 天 体 〈 整 个 系统 或 一 个 子 集 ) ， 计 算是 简单 的 ， 对 所 有 的 相互 作用 
对 ， 为 每 个 天 体 计算 力 和 总 和 。 一旦 算出 了 力 的 总 和 ， 就 用 它 来 更 新 每 个 天 体 的 位 置 和 速度 
(基于 之 前 的 位 置 和 速度 }。 力 的 计算 复杂 度 是 O( 玫 ) ， 而 更 新 的 复杂 度 是 0(n)。 

捉 行 力 -计算 代码 使 用 两 个 幅 套 的 for 循环 在 多 对 体 上 和 迭代。 外 部 循环 对 体 进 行 选 择 ， 以 其 计 
算 力 的 总 和 ， 内 部 循环 在 所 有 的 体 上 迭代 。 内 部 循环 调用 一 个 计算 pair- wise 力 的 函数 ， 然 后 将 
力 加 到 一 个 连续 的 总 和 中 。 

为 了 并 行 地 计算 多 个 力 ， 我 们 为 每 个 体 分 配 一 个 线程 ， 因 为 在 每 个 体 上 的 力 的 计算 与 其 他 
体 上 的 计算 是 独立 的 。 一 旦 所 有 的 力 都 已 算出 ， 就 可 以 对 天 体 的 位 置 和 速度 进行 更 新 。 

囊 行 和 并 行 版 本 的 代码 在 图 A-8-12 和 图 A-8-13 中 给 出 。 串 行 版 本 有 两 个 嵌 套 的 for 循环 。 
到 CUDA 的 转化 ， 像 许多 其 他 例子 一 样 ， 将 串 行 外 部 循环 转化 成 每 线程 的 内 核 ， 每 个 线程 计算 -- 
个 单独 天 体 上 力 的 总 和 。CUDA 内 核 为 每 个 线程 计算 一 个 全 局 的 线程 人 D， 蔡 换 串 行 外 部 循环 的 迭 
代 变 量 。 两 个 内 核 以 将 加 速度 的 总 和 存 人 一 个 全 局 数组 而 结束 ， 该 全 局 数组 用 于 以 并 行 步 的 方 
式 计算 新 的 位 置 和 速度 。 


i 
| Void accel on ail bodies () 


{ 










| int i, j; 
rloai3 acc(0.0f, 0.0f, O.0f},; 
for (i = 0; i < N; i++) { 


For (] = 0; j] < N; j++) { 
acc = body body interaction(acc, body[i], body[j]) 


于 


accel[il] = accr 


} 





图 A-8-12 在 N 个 体 上 计算 所 有 pair-wise 力 的 串 行 代码 


昌 根据 Nyland、Haris 和 Prins [2007] 《GPU Gems 3》 第 31 章 ，“Fast N- Body Simulation with CUDA” 改编 。 
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global void accel on one body!() 


{ 
int i = threadIdx.x + blockDim.x * plockIidx.x; 
int 3; 
float3 acc(0.0f, O.0f, 0.0f),; 


for (了 = 0D; J < N; j++) 1 
= body body interactionl(acc, body[i], body[j]}); 


accel[il = acc; 





图 A-8-13 在 一 个 单个 体 上 计算 力 的 总 和 的 CUDA 线程 代码 


外 部 循环 被 运行 NN 个 线程 ， 每 个 线程 对 应 一 个 体 的 CUDA 内 核 网 格 所 代替 。 

GPU 执行 优化 

上 述 的 CUDA 代码 功能 上 是 正确 的 ， 但 却 不 是 高 效 的 ， 因 为 它 忽略 了 关键 的 架构 特征 。 可 以 
使 用 三 个 主要 的 优化 获得 更 好 的 性 能 。 首 先 ， 共 享 存储 器 可 以 用 来 避免 线程 间 的 同一 存储 器 读 ， 
其 次 ,在 各 个 体 上 使 用 多 线程 以 提高 小 值 N 的 性 能 ; 再 次 ， 循 环 展开 以 减少 循环 开销 。 

使 用 共享 存储 器 

共享 存储 器 可 以 保存 体位 置 的 一 个 子 集 ， 很 像 一 个 cache， 消 除了 线程 间 的 多 余 全 局 存储 器 请 
求 。 我 们 对 上 面 展 示 的 代码 进行 优化 ， 使 一 个 线程 块 中 p 个 线程 的 每 一 个 装 到 共享 存储 器 的 一 个 位 
置 〈 共 P 个 位 置 ) 。 一 且 所 有 的 线程 均 已 装 人 一 个 值 到 共享 存储 器 中 ， 由 _ syncthreads () 保 证 ， 每 
个 线程 这 时 可 以 进行 p 次 交互 (使 用 共享 存储 器 中 的 数据 ) 。 对 于 每 一 个 体 ， 这 个 过 程 重复 N/p 次 
以 完成 力 的 计算 ,这 一 因子 p (典型 地 在 32 ~ 128 的 范围 中 ) 减少 了 请 求 存 储 器 的 数量 。 

称 为 accel_on_one boay() 的 函数 需要 少许 改动 以 支持 这 个 优化 。 修改 后 的 代码 在 图 A-8-14 中 
给 出 。 






.shared _ float4 shposition[256]; 








global _ void accel on one body!{) 
{ 





int i = threadIidx .x + blockDim.x * blockidx .x: 
int jj, k; 






int p = blockDim.x,; 
float3 acc(0.0f, 0.0f, 0.0f).: 
float4 myBody = body[il; 








for (J = 0; jj <N;j+= p) { // Outer loops jumps by p each time 
shposition[threadIdx,x] = body[y}+threadIdx.x]: 
syncthreads (}); 








for (k = 0; k < Pr k++) { // Inner LOoP accesses p positions 





aCc = body body interaction(acc， myBody, shPposition[kl}):; 





} 
_ Synctnhnreads ()} 







CCr 





图 A-8-14 在 每 个 体 上 计算 力 的 总 量 的 CUDA 代码 ， 使 用 共享 存储 器 以 提高 性 能 
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之 前 在 所 有 体 上 迁 代 的 循环 现在 被 块 的 维 数 六 所 跳 过 。 外 部 循环 的 每 次 迭代 装 和 人 了 个 连续 位 
置 到 共享 存储 器 中 (每 个 线程 一 个 位 置 ) 。 多 个 线程 同步 进行 ， 然 后 每 个 线程 计算 p 个 力 的 计 
算 。 需 要 进行 第 二 次 同步 ， 以 确保 新 值 在 所 有 线程 使 用 当前 值 完 成 力 的 计算 之 前 没有 被 装 入 共 
器 。 
人 GPU 可 以 维持 的 总 带宽 的 10% (使 用 少 于 
5 GB/s) 。 这 个 优化 使 应 用 忙于 执行 计算 而 不 是 等 待 存储 器 访问 ， 因 为 它 或 许 无 需 使 用 共享 存储 
器 。 改 变 六 值 的 性 能 在 图 A-8-15 中 给 出 。 


GPU 上 N-Body 的 性 能 
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A-8-15 在 GeForce 8800 GTX 和 GeForce 9600 上 N-body 应 用 的 性 能 测量 
8800 具有 128 个 运行 在 1.35 GHz 的 流 处 理 器 ， 而 9600 具有 64 个 运行 在 0. 80 GHz (大 约 是 8800 的 30% 的 

流 处 理 器 ) 。 峰 值 性 能 是 242 GFLOPS。 对 于 一 个 具有 更 多 处 理 器 的 CPU 来 说 ， 为 获得 完全 的 性 能 ， 问 题 将 

会 更 大 〈9600 的 峰值 大 约 为 2048 体 ， 而 8800 直到 16 384 体 才 达到 它 的 峰值 性 能 ) 。 对 于 较 小 的 W， 每 体 多 

于 一 个 的 线程 显著 地 提高 性 能 ， 但 由 于 六 的 增长 ， 最 终 将 造成 性 能 损失 。 

在 每 个 体 上 使 用 多 线程 

A-8-15 展示 了 在 GeForce 8800 GTX 上 的 小 NN 值 (N<4096) 性 能 退化 问题 。 许 多 研究 成 
就 依赖 于 集中 于 小 (为 进行 长 时 间 的 仿真 ) 的 N-body 计算 ， 使 得 它 成 为 我 们 优化 努力 的 目标 。 
我 们 用 来 解释 较 低 性 能 的 假定 是 ,在 N 较 小 时 ,没有 足够 的 工作 保持 GPU 忙碌 。 解 决 办 法 是 为 
每 个 体 分 配 更 多 的 线程 。 我 们 将 线程 块 的 维 数 从 (p，1，1) 改变 到 (p，9，1) ， 其 中 9 个 线程 
将 一 个 单一 体 中 的 工作 划分 成 相等 的 部 分 。 通 过 分 配 相同 线程 块 中 的 额外 线程 ， 部 分 结果 可 以 
被 存储 到 共享 存储 器 中 。 当 所 有 力 的 计算 都 完成 时 ，9 个 部 分 结果 可 以 被 收集 到 一 -起 并 相 加 来 计 
算 最 终 的 结果 。 每 个 体 使 用 两 个 或 四 个 线程 导致 了 小 W 的 很 大 改进 。 

作为 一 个 例子 ， 当 NW = 1024 时 ，8800 GTX 的 性 能 跳跃 到 110% 附近 (一 个 线程 达到 90 
GFLOPS， 四 线程 达到 190 GFLOPS)。 在 大 N 上， 性 能 仅 有 轻微 退化 ， 因 此 我 们 仅 对 小 于 4096 的 
N 使 用 该 优化 。 一 个 具有 128 个 处 理 器 和 一 个 具有 64 个 处 理 器 以 三 分 之 二 时 钟 速度 运行 的 更 小 
GPU 的 性 能 提升 在 图 A-8-15 中 给 出 。 

性 能 比较 

N-body 代码 的 性 能 在 图 A-8-15 和 图 A-8-16 中 给 出 。 在 图 A-8-15 中 ， 展示 了 高 性 能 和 中 性 
能 GPU， 连 同 在 每 体 上 使 用 多 线程 获得 的 性 能 提升 。 最 快 GPU 的 人 性 能 在 从 90 到 仅 低 于 250 
GFLOPS 的 范围 内 。 

图 A-8-16 展示 了 在 Intel Core2 CPU 运行 的 几乎 同样 的 代码 (C ++ 与 CUDA)。CPU 的 性 能 大 
约 是 CPU 的 1% ,在 0.2 ~2 GFLOPS 的 范围 和 内， 在 很 宽 的 问题 大 小 范围 内 几乎 保持 不 变 。 
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A-8-16 在 一 个 CPU 上 的 N-body 代码 的 性 能 测量 
图 中 说 明了 使 用 Intel Core2 CPU 的 单 精度 N-body 性 能 ， 由 它们 的 CPU 模型 号 码 指示 。 注 意 CFLOPS 性 能 
的 显著 下 降 《在 y 轴 上 以 GFLOPS 显示 ) ， 证 明了 与 CPU 相 比 ，GPU 有 多 快 。CPU 的 性 能 通常 独立 于 问题 的 
规模 ， 除 了 当 w = 16 384 在 X9775 CPU 上 的 反常 低 性 能 之 外 。 图 形 也 说 明了 在 一 个 单 核 CPU 上 运行 CUDA 版 
代码 〈 使 用 面向 CPU 的 CUDA 编译 器 ) 的 结果 ， 它 胜 过 C++ 代码 24% 。 作 为 一 种 编程 语言 ，CUDA 暴露 了 
编译 器 可 以 开发 的 并 行 性 和 局部 性 。Intel CPU 是 3.2 GHz Extreme X9775 (代号 为 “penryn”)，2.66 GHz 


E8200 《代号 为 “Wolfdale” ) ， 前 Penryn 桌面 CPU 和 1.83 GHz T2400 〈 代 号 为 “Yonah" ) ， 一 个 2007 笔记 本 
电脑 CPU。Core2 架构 的 Penryn 版 本 以 其 4 位 除法 器 对 N-body 计算 相当 感 兴趣 ， 人 允许 除法 和 平方 根 操 作 执 行 
比 先 前 的 Intel CPU 快 4 倍 。 


A-8-16 也 说 明了 编译 用 于 CPU CUDA 版 代码 的 结果 ， 其 中 性 能 提升 了 24% 。CUDA 作为 
一 种 编程 语言 ， 提 供 了 并 行 性 ， 人 允许 编译 器 在 单 核 上 更 好 地 使 用 SSE 向 量 单元 。N- body 代码 的 
CUDA 版 本 也 自然 地 映射 到 多 核 CPU (使 用 块 的 网 格 ) ， 它 因而 在 一 个 8 核 系 统 上 ，N = 4096 时 
获得 了 近乎 完美 的 扩展 (在 2、4 和 8 核 上 ， 对 应 的 比率 为 2.0、3.97 和 7.94)。 

结果 

以 适度 的 努力 ， 我 们 开发 了 一 种 计算 内 核 ， 与 多 核 CPU 相 比 ， 可 以 通过 乘 上 一 个 因子 来 提 
高 GPU 的 性 能 ， 该 因子 最 高 可 达 157。 与 以 44 Hz 帧 率 在 GeForce8800 GPU 运行 的 同样 代码 相 比 ， 
N-body 代码 在 近来 Intel CPU (3. 2 GHz 的 单 核 Penryn X9775) 上 的 执行 时 间 ， 每 帧 占用 时 间 要 长 
3 秒 。 在 前 Penryn CPU 上 ， 该 代码 需要 6 ~ 16 秒 ， 在 稍 老 Core2 处 理 器 和 弃 腾 IV 处 理 器 上 ， 时 间 
大 约 为 25 秒 。 我 们 必须 将 明显 的 性 能 增加 划分 成 一 半 ， 因 为 CPU 仅 需 要 半数 计算 量 来 计算 相同 
的 结果 (使 用 在 一 对 体 上 的 力 与 强度 和 对 应 的 方向 等 价 地 优化 )。 

GPU 是 如 何以 这 么 大 的 数量 加 速 代 码 的 ? 答案 需要 检查 体系 结构 细节 。pair-wise 力 的 计算 需 
要 20 个 浮 点 操作 ， 主 要 由 加 和 乘 指令 组 成 (一些 可 以 使 用 乘 加 指令 组 合 ) ， 但 也 有 用 于 向 量 标 
准 化 的 除 和 平方 根 指令 。Intel CPU 使 用 很 多 周期 完成 单 精度 除 和 平方 根 指令 ， 尽 管 在 最 近 的 
Penryn 系列 CPU 中 ， 以 更 快 的 4 位 除法 器 8 对 其 进行 了 改进 。 另 外 ， 寄 存 器 容量 的 限制 导致 了 
x86 代码 中 众多 的 MOV 指令 (大 概 是 to/from 一 级 cache)。 相 有 反 ，GeForce 8800 使 用 4 个 周期 执 
行 一 个 倒数 平方 根 线程 指令 ; 专用 功能 的 精确 性 可 参考 A.6 节 。 它 有 一 个 更 大 的 寄存 器 文件 
(每 线程 ) 和 共享 存储 器 ， 可 以 作为 指令 操作 数 访问 。 最 后 ， 与 来 自 多 种 x86 CPU 编译 器 的 多 于 


避 没有 考虑 x86 SSE 指令 倒数 平方 根 (RSQRT* ) 和 倒数 (RCP* )， 因为 它们 的 精确 度 太 低 以 致 不 具 可 比 性 。 
避 《Intel Corporation, Intel 64 and IA-32 Architectures Optimization Reference Manual》，2007 年 11 月 。 序列 号 : 
248966-016。 登 录 www3. intel com/ design/ processor/manuals/248966. pdf 也 可 以 得 到 。 
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40 条 的 指令 比较 ，CUDA 编译 器 为 循环 的 一 个 迭代 发 射 15 条 指令 。 更 大 的 并 行 、 复 杂 指 令 的 更 
快 执 行 、 更 多 的 寄存 器 空间 和 高 效 的 编译 器 ， 所 有 这 些 组 合 ， 解 释 了 CPU 和 GPU 之 间 ，N-body 
代码 性 能 显著 提升 的 原因 。 

在 GeForce-8800 上 ，all-pairs N-body 算法 产生 高 于 240 CFLOPS 的 性 能 ， 与 之 相 比 ， 在 近来 
的 串 行 处 理 器 上 仅 能 获得 不 到 2 GFLOPS 的 性 能 。 在 CPU 上 编译 和 执行 CUDA 版 的 代码 证 明了 问 
题 可 以 很 好 地 扩展 到 多 核 CPU 上 ， 但 它 仍然 要 比 单个 GPU 要 慢 得 多 。 

我 们 将 GPU N-body 仿真 与 运动 图 形 显 示 结 合 ， 可 以 以 44 帧 每 秒 的 速率 交互 地 显示 16K 的 
体 。 这 人 允许 天 体 物 理 和 生物 物理 以 交互 的 速率 显示 和 操作 。 另 外 ， 我 们 可 以 用 参数 表示 很 多 设 
置 ， 例 如 噪声 衰减 、 阻 尼 和 融合 技术 ， 立 即 动态 地 显示 它们 对 系统 的 效果 。 这 为 科学 家 提供 了 极 
好 的 可 视 影 像 ， 推 进 了 他 们 在 其 他 不 可 视 系 统 ( 太 大 或 太 小 ， 太 快 或 太 慢 ) 上 的 洞察 力 ， 人 允许 
他 们 为 物理 现象 创造 更 好 的 模型 。 

图 A-8-17 展示 了 16K 体 的 天 体 物 理 仿 真 的 一 个 时 间 序 列 显示 ， 每 体 充当 一 个 星系 。 初 始 配 
置 是 一 个 围绕 z 轴 旋 转 的 球体 外 壳 。 天 体 物 理学 家 感 兴趣 的 一 个 现象 是 聚集 ， 它 发 生 、 并 同 星系 
随时 间 推 移 的 合并 一 起 存在 。 对 于 感 兴趣 的 读者 ， 这 个 应 用 的 CUDA 代码 可 从 www. nvidia com/ 
CUDA 中 的 SDK 获得 。 





A-8-17 在 一 个 具有 16 384 体 的 N-body 系统 演变 过 程 中 捕捉 到 的 12 幅 图 像 


A. 9 廖 误 与 陷阱 
人 的 发 展 和 变化 如 此 之 快 ， 以 至 于 出 现 了 许多 雇 误 和 易 犯 的 错误 ，。 我 们 在 此 讨论 典型 的 
Ns 
请 误 : GPU 仅仅 是 SIMD 向 量 多 处 理 器 。 
很 容易 得 出 ，GPU 仅 是 SIMD 向 量 多 处 理 器 的 错误 结论 。GPU 确实 有 一 个 SPMD 风格 的 编程 
模型 ， 在 该 模型 中 ， 程序 员 可 以 编写 一 个 可 以 在 多 个 线程 实例 中 以 多 数据 执行 的 单个 程序 。 尽 管 
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如 此 ， 这 些 线程 的 执行 不 是 纯粹 的 SIMD 或 同 量 ; 它 是 A.4 节 中 描述 的 单 指令 多 线程 (SIMT) 。 
每 个 GPU 线程 有 它 自 己 的 标量 寄存 器 、 线 程 私 有 存储 器 、 线 程 执行 状态 、 线 程 站、 独立 的 执行 
和 分 文 路 径 和 高 效 的 程序 计数 器 ， 并 且 可 以 独立 地 对 存储 器 寻 址 。 尽 管 执 行 线程 的 PC 相同 时 ， 
一 组 线程 《例如 ， 一 个 32 线程 的 warp) 执行 得 更 为 高 效 ， 但 这 不 是 必需 的 。 因 此 ， 多 处 理 器 不 
是 纯粹 的 SIMD。 线 程 执行 模型 是 具有 顶 障 同步 和 SIMT 优化 的 MIMD。 如 果 单 个 线程 load/store 
存储 器 访问 能 聚合 成 块 访问 ， 执 行 也 会 变 得 更 为 高 效 。 然 而 ， 严 格 来 说 这 个 不 是 必须 的 。 在 一 个 
纯粹 的 SIMD 向 量 架构 中 ,不 同 线程 的 存储 器 /寄存 器 访问 必须 以 一 个 规整 的 向 量 模 式 对 齐 。 
GPU ， 对 于 寄存 器 或 存储 器 访问 ， 没 有 这 样 的 限制 ; 然而 ， 如 果 线 程 warp 访问 局 部 数据 块 的 话 ， 
执行 将 更 为 高 效 。 

SIMT CPU 可 以 同时 执行 多 于 一 个 的 线程 warp， 进 一 步 违 反 了 纯粹 的 SIMD 模型 。 在 图 形 应 
用 中 ， 或 诈 有 多 组 顶点 程序 、 像 素 程序 和 几何 程序 同时 运行 在 多 处 理 阵 列 中 。 计 算 程 序 也 可 以 同 
时 执行 不 同 warp 中 的 不 同 程序 。 

请 误 : CPU 的 性 能 不 能 比 摩尔 定律 增长 得 更 快 。 

摩尔 定律 仅 是 一 个 速率 。 对 于 任何 其 他 速率 来 说 ， 它 不 是 “光速 ”极限 。 摩 尔 定律 描述 了 
一 个 随时 间 推 移 的 展望 ， 由 于 半导体 技术 的 进步 和 晶体 管 变 得 更 小 ， 每 晶体 管 的 制造 成 本 将 以 
指数 下 降 。 以 另外 一 种 方式 ， 给 定 一 个 不 变 的 制造 成 本 ,晶体 管 的 数量 将 指数 增加 。Cordon 
Moore [1965 」 预测 ， 这 种 进步 每 年 将 为 同样 的 成 本 提供 大 约 两 倍数 量 的 晶体 管 ， 后 来 修正 为 每 
两 年 翻 倍 。 尽 管 摩尔 在 每 个 集成 电路 仅 有 50 个 元 件 的 1965 年 ， 做 出 了 最 初 的 预测 ， 它 仍 被 证 明 
极为 一 致 。 从 历史 上 说 ,晶体 管 尺寸 的 减 小 还 有 其 他 的 好 处 ,例如 每 个 晶体 管 更 低 的 功 耗 和 不 变 
功 耗 下 更 快 的 时 钟 速度 。 

这 个 晶体 管 增加 的 馈赠 被 系统 架构 师 用 来 构建 处 理 器 、 存 储 器 和 其 他 组 件 。 曾 经 一 段 时 间 ， 
CPU 设计 者 使 用 额外 的 晶体 管 以 近似 于 摩尔 定律 的 速度 增加 处 理 器 的 性 能 ， 人 性 能 提高 了 那么 多 
以 至 于 许多 人 认为 处 理 器 速度 以 摩尔 定律 的 速度 每 18 ~ 24 个 月 翻 一 番 。 实 际 上 ， 不 是 这 样 的 。 

微 处 理 器 设计 者 花费 了 一 些 新 的 晶体 管 到 处 理 器 核 上 ， 改 进 架 构 和 设计 ， 并 采用 流水 以 获 
得 更 快 的 时 钟 速率 。 剩 下 的 新 晶体 管用 来 提供 更 多 的 cache， 以 使 存储 器 访问 更 快 。 相反 ，GPU 
设计 者 几乎 不 使 用 新 的 晶体 管 提供 更 多 的 cache; 大 多 数 晶体 管 都 被 用 在 改进 处 理 器 核 和 增加 更 
多 的 处 理 器 核 上 。 

通过 四 种 机 制 CPU 变 得 更 快 。 第 一 ，GPU 设计 者 收获 了 摩尔 定律 的 馈赠 ， 直接 通过 应 用 以 
指数 增多 的 晶体 管 构建 更 多 的 并 行 、 更 快 的 处 理 器 。 第 二 ，GPIU 设计 者 可 以 随时 间 推 移 改进 架 
构 ， 增 加 处 理 的 效率 。 第 三 ， 摩 尔 定律 假定 成 本 不 变 ， 因此 摩尔 定律 速度 可 以 无 疑 地 被 超过 ， 通 
过 为 具有 更 多 晶体 管 的 更 大 的 芯片 花费 更 多 。 第 四 ， 通 过 使 用 更 快 的 存储 器 、 更 宽 的 存储 器 、 数 
据 压缩 和 更 好 的 cache，GPU 存储 系统 ， 以 几乎 可 与 处 理 速 度 相 比 的 速度 ， 增 加 了 它们 的 有 效 带 
宽 。 这 四 种 方法 的 组 合 历史 性 地 允许 GPU 性 能 有 规律 地 翻 倍 ， 大 约 12 ~ 18 个 月 翻 倍 。 这 种 速度 
超过 了 摩尔 定律 的 速度 ， 已 经 在 图 形 应 用 方面 被 证 明了 将 近 十 年 ， 且 没 有 显示 有 明显 下 降 的 信 
号 。 最 具 挑 战 的 速率 限制 因素 看 来 是 存储 系统 ， 但 具有 竞争 性 的 革新 也 同样 快速 地 提升 着 它 。 

诡 误 ; GPU 仅 能 泻 染 3D 图 形 ; 它们 不 能 进行 通用 计算 。 

GPU 被 创建 来 演 染 3D 图 形 、2D 图 形 和 视频 。 为 了 满足 图 形 软 件 开发 者 在 图 形 API 中 表达 
的 接口 、 性 能 /特征 需求 的 要 求 ，GPU 变 成 了 大 规模 并 行 可 编程 浮 点 处 理 器 。 在 图 形 领 域 ， 这 些 
处 理 器 通过 图 形 API 和 侠 为 人 知 的 编程 语言 (OpenGL 和 Direct3D 中 的 GLSL、Cg 和 HILSL) 编 
程 。 尽 管 如 此 ， 没 什么 能 够 阻挡 GPU 架构 师 向 程序 员 暴 吝 不 使 用 图 形 API 或 鲜 为 人 知 的 图 形 语 
言 的 并 行 处 理 器 核 。 

实际 上 ，Tesla 架构 系列 的 GPU 通过 一 个 被 称 为 CUDA 的 软件 环境 暴露 处 理 器 ，CUDA 允许 
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程序 员 使 用 C 语言 和 后 来 的 C ++ 开发 通用 应 用 程序 。CPU 是 完全 的 图 灵 处 理 器 ， 因 此 它们 可 以 
运行 CPU 可 以 运行 的 任何 程序 ， 尽管 可 能 不 太 好 。 也 可 能 更 快 。 

启 误 : GPU 不 能 快速 地 运行 双 精 度 浮 点 程序 。 

在 过 去 ，GPU 完全 不 能 运行 双 精 度 浮 点 程序 ， 除 非 通过 软件 模拟 。 那 一 点 也 不 快 。GPU 已 
经 取得 了 进步 ， 从 索引 算术 表示 法 (颜色 查找 表 ) 到 每 颜色 元 素 8 位 整数 ， 到 定点 算术 ， 到 单 
精度 浮 点 ， 到 近来 新 增 的 双 精 度 浮 点 。 现 代 GPU 事实 上 以 单 精度 IEEE 浮 点 算术 执行 所 有 计算 ， 
另外 ， 也 开始 使 用 双 精 度 。 

付出 较 小 的 额外 开销 ，GPU 即 可 支持 双 精 度 浮 点 ， 如 同 支持 单 精度 浮 点 一 样 。 今 天 ， 双 精 
度 要 比 单 精度 运行 慢 很 多 ， 大约 慢 5 ~ 10 倍 。 增 加 额外 的 开销 ， 双 精度 性 能 可 以 相对 于 单 精 度 分 
阶段 的 增加 ， 如 同 很 多 应 用 要 求 的 那样 。 

衣 误 : GPU 不 能 正确 地 进行 浮 点 计算 。 

GPU ， 至 少 在 Tesla 构架 系列 的 处 理 器 中 ， 以 IEEE 754 浮 点 标准 指定 的 级 别 ， 执 行 单 精度 学 
点 处 理 。 因 此 ， 在 精度 方面 ，GPU 与 任何 其 他 IEEE 754 兼容 的 处 理 器 是 相当 的 。 

今天 ，GPU 没有 实现 标准 中 描述 的 一 些 特殊 特征 ， 像 处 理 非 规格 化 数 和 提供 精确 浮 点 异常 。 
尽管 如 此 ， 近 来 面市 的 Tesla T10P GPU 提供 了 完整 的 IEEE 含 人 、 合 并 的 乘 加 和 双 精 度 的 非 规格 
化 数 支持 。 

陷阱 : 仅仅 使 用 更 多 的 线程 来 掩盖 更 长 的 存储 器 延迟 。 

CPU 核 典型 的 设计 来 全 速 运行 一 个 单线 程 。 为 全 速 运行 ， 每 条 指令 和 它 的 数据 ， 在 那 条 指 
令 运 行 的 时 候 ， 需 要 可 用 。 如 果 下 一 条 指令 没有 准备 好 或 者 它 所 需要 的 数据 不 可 用 指令 不 能 运 
行 ， 且 处 理 器 停顿 。 外 部 存储 器 距 处 理 器 较 远 ， 因 此 从 存储 器 中 取 数 据 浪费 了 很 多 周期 。 因此 ， 
CPU 需要 很 大 的 本 地 eache， 保 持 运 行 避免 停顿 。 存 储 器 延迟 很 长 ， 因 此 努力 在 cache 中 运行 以 
避免 仓储 器 访问 。 在 某 个 位 置 ， 程 序 的 工作 集 需 求 可 能 比 任何 cache 都 大 。 一 些 CPU 使 用 多 线程 
来 容忍 延迟 ， 但 每 核 的 线程 数 通 常 限 制 在 一 个 较 小 的 数量 上 。 

GPU 的 策略 是 不 同 的 。GPU 核 设 计 用 来 同时 运行 众多 线程 ， 但 每 次 仅 执 行 任意 线程 的 一 条 
指令 。 表 述 这 个 的 另 一 种 方法 是 ，GPU 缓慢 地 运行 每 个 线程 ， 但 总 体 上 高 效 地 运行 这 些 线程 。 
每 个 线程 可 以 容忍 一 些 数量 的 存储 器 延迟 ， 因 为 其 他 线程 可 以 运行 。 

这 样 的 不 利之 处 是 需要 多 路 一 一 众多 多 路 线程 一 一 来 掩盖 存储 器 延迟 ， 另外 ， 如 果 存 储 器 
访问 是 分 散 的 或 在 线程 间 不 相关 ， 存储 系统 为 适应 单独 的 请 求 将 逐渐 变 慢 ， 其 至 多 线程 将 不 能 
掩盖 延迟 。 因 此 ， 易 犯 的 错误 是 “ 仅 使 用 更 多 的 线程 ” 策略 来 掩盖 延迟 ， 你 必须 有 足够 的 线程 ， 
且 线 程 在 存储 器 访问 的 局 部 性 方面 必须 有 较 好 的 行为 。 

请 误 : 0(n) 算法 是 难以 加 速 的 。 

无 论 CPU 在 处 理 数据 方面 有 多 快 ， 传输 数据 到 设备 和 从 设备 传 出 数据 的 步骤 可 能 会 限制 复 
杂 度 为 0(n) (每 个 数据 具有 较 小 的 工作 量 ) 的 算法 的 性 能 。 使 用 DMA 传输 且 仅 有 较 少 的 非 
DMA 传输 时 ，PCle 总 线 的 最 高 传输 率 接近 48 GB/s。 相 反 ，CPU 典型 的 系统 存储 器 访问 速度 为 
8 ~12 GB/s。 举 例 说 明 问 题 ， 如 向 量 加 ， 将 被 到 GPU 的 输入 和 计算 的 返回 输出 传输 所 限制 。 

有 三 种 方法 克服 传输 数据 的 开销 。 首 先 ， 尽 力 将 数据 保留 在 GPU 中 ,能 有 和 多久 就 多 久 ， 而 
不 是 为 一 个 复杂 算法 的 不 同步 又 向 后 或 向 前 移动 数据 。CUDA 有 意 地 将 数据 在 运行 期 间 单独 地 留 
在 CPU 中， 以 支持 该 方法 。 

其 次 ，GPU 支持 copy-in、copy-out 和 计算 的 同时 操作 ， 因此 在 它 进行 计算 时 ， 数 据 可 以 流 人 
和 流出 设备 。 该 模型 对 任何 到 达 即 可 处 理 的 数据 流 来 说 是 有 用 的 。 例子 是 ， 视 频 处 理 、 网 络 路 
由 、 数 据 压 缩 /解压 ， 其 至 简单 的 计算 如 大 向 量 数学 。 

第 三 种 提议 是 将 CPU 和 GPU 放 在 一 起 使 用 ， 通过 为 各 自分 配 工 作 的 一 个 子 集 来 提升 性 能 ， 
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将 系统 作为 一 个 异 构 计 算 平台 看 待 。CUDA 编程 模型 支持 在 不 使 用 线程 (通过 异步 GPU 函数 ) 
的 情况 下 ， 将 工作 分 配 到 一 个 或 多 个 GPU ， 并 持续 使 用 CPU， 因此， 保持 所 有 GPU 和 一 个 CPU 
同时 工作 来 解决 这 个 问题 ， 甚 至 会 更 快 ， 相 对 是 比较 简单 的 。 


A. 10 小结 


CPU 是 大 规模 并 行 处 理 器 ， 且 被 广泛 应 用 ,不 仅 在 3D 图 形 方面 ， 而 且 在 众多 其 他 应 用 方 
面 。 图 形 设备 到 可 编程 处 理 器 的 演变 使 得 这 个 广泛 的 应 用 成 为 可 能 。GPU 的 图 形 应 用 编程 模型 
通 滑 是 一 个 API， 像 DirectX ”或 者 OpenGL “。 为 了 更 多 通用 目的 计算 ，CUDA 编程 模型 使 用 
SPMD (单程 序 多 数据 ) 风格 ， 执 行 一 个 具有 众多 并 行 线程 的 程序 。 

GPU 的 并 行 性 将 继续 以 摩尔 定律 扩展 ， 主 要 通过 增加 处 理 器 的 数量 。 只 有 可 以 容易 地 扩展 
到 数 百 个 处 理 器 核 和 数 千 个 线程 上 的 并 行 编程 模型 ， 在 支持 众 核 GPU 和 CPU 方面 ， 才 会 获得 成 
功 。 同 样 ， 只 有 那些 具有 众多 大 量 独立 并 行 的 任务 才能 被 大 规模 并 行 众 核 架构 所 加 速 。 

GPU 的 并 行 编程 模型 正 变 得 更 为 灵活 ， 可 用 于 图 形 和 并 行 计 算 。 例 如 ，CUDA 正 朝 着 完全 
CALC ++ 功能 方向 快速 发 展 。 图 形 API 和 编程 模型 将 可 能 根据 CUDA 的 并 行 计算 能 力 和 模型 改编 。 
它 的 SPMD 风格 的 线程 模型 对 于 表达 大 量 并 行 来 说 ， 是 可 扩展 的 ， 并 且 方 便 、 简 洁 、 易 学 。 

钙 编 程 模型 中 的 这 些 改变 所 驱动 ，GPU 架构 变 得 更 为 灵活 和 更 具 编程 性 。GPU 固定 功能 单 
元 正 变 得 可 被 通用 程序 访问 ， 沿 着 CUDA 程序 ， 使 用 GPU 纹理 指令 和 纹理 单元 ， 已 经 使 用 纹理 
内 在 函数 执行 纹理 查找 的 路 线 。 

CPU 染 构 将 不 断 地 适应 图 形 和 其 他 应 用 程序 员 的 使 用 模型 。GPU 将 继续 扩展 以 包含 更 多 的 
处 理 能 力 ， 通 过 增加 处 理 器 核 、 增 加 线程 和 程序 可 用 的 存储 器 带宽 。 另 外 ， 编程 模型 必须 改进 以 
包含 可 编程 异 构 众 核 系 统 〈 间 时 包含 CPU 和 CPU) 。 
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A. 11 拓展 阅读 


本 节 在 CD 中 给 出 ， 综 述 了 可 编程 的 实时 图 形 处 理 单元 ( GPU) 的 历史 ， 从 20 世纪 80 年 代 
到 今天 ， 价 格 降低 了 两 个 数量 级 ， 性 能 提高 了 两 个 数量 级 。 人 迫 溯 了 GPU 的 发 展 ， 从 固定 功能 流 
水 线 到 具有 GPU 计算 前 景 的 可 编程 图 形 处 理 器 、 到 统一 的 图 形 和 计算 处 理 器 、 到 可 视 计 算 和 可 
扩展 GPU。 
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B. 1 引言 

编码 指令 作为 一 种 二 进 制 数 字 对 计算 机 来 说 是 自然 而 且 有 效 的 。 然 而 人 类 理解 和 处 理 这 些 
数字 有 很 大 的 困难 。 人 们 读 和 写 这 些 符号 (文字 ) 比 读 和 写 一 长 串 的 数字 容易 多 了 。 第 2 意 说 
明了 我 们 不 需要 在 数字 和 文字 之 间 做 出 选择 ， 因 为 计算 机 指令 可 以 具备 很 多 种 表达 方式 。 人 类 
可 以 读 而 且 写 这 些 符号 ， 并 且 计算 机 可 以 执行 等 价 的 二 进 制 数字 。 本 附录 描述 了 人 类 可 读 的 程 
序 被 处 理 的 过 程 :把 一 种 程序 形式 转换 成 另外 一 种 计算 机 可 以 执行 的 方式 ， 提 供 了 一 些 编写 汇 
编程 序 的 暗示 ， 并 且 解 释 如 何在 SPIM 上 运行 这 些 程序 ，SPIM 是 一 个 执行 MIPS 程序 的 仿真 器 。 
SPIM 的 UNIX、Windows 以 及 Mac 0S X 版 本 在 CD 中 可 以 得 到 。 

汇编 语言 是 计算 机 二 进 制 编码 一 一 机 器 语言 ?的 符号 表示 。 汇编 语言 比 机 器 语言 更 具备 可 读 
住 ， 因 为 它 使 用 符号 而 不 是 二 进 制 数字 。 这 些 汇编 语言 中 的 符号 名 字 通 常 以 二 进 制 模式 出 现 ， 例 
如 ， 操 作 码 和 寄存 器 指示 符 ， 所 以 可 以 阅读 并 记 住 它们 。 另 外 ， 汇 编 语 言 允 许 编程 者 使 用 labels 
来 识别 和 指定 保存 指令 和 数据 的 内 存 字 。 

一 个 被 称 为 汇编 器 的 工具 来 将 汇编 语言 转换 成 二 进 制 指令 。 汇 编 器 提供 了 比 机 器 0 和 机 器 
1 更 友好 的 表达 ， 使 得 写 程序 和 读 程序 都 简化 了 。 操 作 和 地 址 的 符号 名 称 是 这 种 表达 方式 的 一 个 
方面 。 另 一 个 方面 是 编程 设备 增加 了 程序 的 清新 度 。 例 如 ，B. 2 节 讨 论 的 宏 e 人 允许 程序 员 通过 定 
义 新 操作 来 扩展 汇编 语言 。 

汇编 器 恋人 一 个 汇编 语言 的 源 文件 ， 产 生 一 个 包含 机 器 指令 以 及 帮助 将 几 个 目标 文件 整合 
成 一 段 程序 的 标签 信息 的 目标 文件 。 图 B-1-1 说 明了 如 何 构建 一 个 程序 。 很 多 程序 由 多 个 文件 组 
成 一 -也 被 称 为 调用 模块 一 一 这 些 文件 被 分 开 单 独 编写 ， 单 独 编译 ， 单 独 汇编 。 一 个 程序 可 能 使 
用 乍 序 库 中 提供 的 预先 写 好 的 例 程 。 一 个 模块 通常 包含 到 子 例 程 的 引用 以 及 在 别 的 模块 以 及 庄 
中 定义 的 数据 。 模 块 中 的 代码 直到 对 其 他 目标 文件 或 者 库 的 标签 的 未 确定 的 引用 8 全 部 解决 时 才 
能 执行 。 另 一 个 工具 被 称 为 链接 器 ， 将 目标 代码 和 库 文件 整合 成 一 个 可 执行 文件 ， 这 个 文件 是 
计算 机 可 以 执行 的 。 

为 了 理解 汇编 语言 的 优势 ， 考 虑 下 面 一 系列 图 ， 这 些 图 包含 了 一 个 短程 序 ， 这 个 程序 计算 而 且 打 


二 进 制 表 示 ， 用 来 和 计算 机 系统 通信 。 

将 符号 版 本 的 指令 翻译 二 进 制版 本 的 一 段 程序 。 

一 种 模式 匹配 和 替换 机 制 ， 提 供 了 简单 的 机 制 来 命名 经 常 使 用 的 指令 序列 。 

一 个 需要 从 外 部 源 代码 获取 更 多 信息 才能 完成 的 引用 。 

让 链 接 编 加 器。 是 一 个 将 独立 的 汇编 机 器 语言 程序 组 装 起 来 ， 处 理 其 中 未 定义 的 标签 形成 可 执行 文件 的 一 个 系 
统 程序 。 


(DO 
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印 出 0~100 的 整数 的 平方 和 。 图 B-1-2 展示 一 个 MIPS 计算 机 可 以 执行 的 机 器 语言 。 付 出 很 多 努力 ， 
你 可 以 使 用 第 2 章 指令 表 中 的 编码 和 指令 格式 来 将 指令 转换 成 图 B-1-3 的 类 似 的 符号 化 程序 。 这 个 程 
序 的 形式 是 相当 容易 读 的 ， 因 为 操作 和 操作 数 使 用 符号 ， 而 不 是 使 用 二 进 制 模式 写 的 。 然 而 ， 汇 编 语 
言 仍然 很 难 遵循 ， 因 为 内 存 位 置 通过 地 址 来 指定 而 不 是 通过 符号 化 标签 来 指定 。 


源 文件 -一 -一 一 汇编 器 一 一 一 一 一 目标 文件 2 链接 器 E39 可 执行 文件 


源 文件 “一 一 ~ 汇编 器 ”一 一 > 目标 文件 程序 库 


B-1-1 产生 可 执行 文件 的 过 程 
一 个 汇编 器 将 一 个 用 汇编 语言 写 的 文件 翻译 成 一 个 目标 代码 文件 ， 这 个 目标 代码 文件 又 和 其 他 的 文件 链接 


组 成 可 执行 文件 。 
00100111101111011111111111100000 addiu $29, $29, -32 
10101111101111110000000000010100 gw $31, 20 ($29) 
10101111101001000000000000100000 Sw $4, 32 ($29) 
10101111101001010000000000100100 gw $5, 36 ($29) 
10101111101000000000000000011000 SW $0, 24 ($29) 
10101111101000000000000000011100 Sw $0, 28 {$29) 
10001111101011100000000000011100 lw $14, 28 ($29) 
10001111101110000000000000011000 lw $24, 24 ($29) 
0000000111001110000000000001100] multu $14, $14 
00100101110010000000000000000001 addiu $8, $14,1 
00101001000000010000000001100101 slti $1, $8, 101 
10101111101010000000000000011100 Sw $8, 28 ($29) 
00000000000000000111100000010010 mflo $15 
0000001100001111110010000010000] addu $25, $24, $15 
00010100001000001111111111110111 bne $1, $0, -3 
10101111101110010000000000011000 Sw $25, 24 {$29) 
00111100000001000001000000000000 lui $4, 4096 
10001111101001010000000000011000 Dw $5, 241$29) 
00001100000100000000000011101100 jal 1048812 
00100100100001000000010000110000 addiu $4, $4，1072 
10001111101111110000000000010100 lw $31, 20 ($29) 
00100111101111010000000000100000 addiu $29, $29, 32 
00000011111000000000000000001000 jr $31 
00000000000000000001000000100001 move $2, $0 

图 B-1-2 MIPS 用 来 计算 和 打印 出 0 ~ 100 图 B-1-3 同一 个 程序 的 汇编 语言 

的 整数 的 平方 和 的 机 器 语言 代码 然而 ， 这 个 程序 的 代码 没有 标记 寄存 


花 或 者 内 存 地 址 ， 也 没有 包含 注释 。 


图 B-1-4 展示 了 汇编 语言 使 用 记忆 名 称 来 标志 内 存 地 址 指令 。 很 多 程序 员 育 欢 以 这 种 方式 来 
淡 和 号 指令 。 那 些 名 字 前 有 个 点 ， 例 如. data 以 及 . glop1， 是 汇编 指令 9 ， 告诉 汇编 器 如 何 翻译 
程序 ， 但 是 不 需要 产生 机 器 指令 。 名 字 后 面 跟 一 个 冒号 ， 如 str: 或 者 main;， 这 些 标签 是 下 一 个 
内 存 地 址 的 名 字 。 这 个 程序 和 汇编 语言 一 样 具有 可 读 性 (除了 没有 泡 眼 的 注释 ) ， 但 是 它 还 是 很 
难 遵循 ， 因 为 需要 很 多 简单 的 操作 来 完成 简单 的 任务 ， 因为 汇编 语言 缺乏 控制 流 结构 ， 为 程序 的 
操作 提供 很 少 的 暗示 。 





曲 一 个 告诉 汇编 器 如 何 翻译 程序 ， 但 是 不 会 产生 机 器 指令 的 操作 ， 通常 它 以 空白 开始 。 
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.text 

.align 2 

.Globl main 
main.: 


， $sp, 32 
20 ($sp) 
， 32 ($sp) 
24 ($sp) 
28 ($sp) 


:asciiz "The sum from 0 .. 100 is $d\n' 


图 B-1-4 使 用 带 有 标签 (Iabelj 的 汇编 语言 写 的 同一 个 程序 ， 但 是 没有 注释 
以 空 氮 开始 的 指令 是 汇编 指令 〈( 兄 B. 10) 。.text 指示 后 续 的 行 包含 着 指令 。. data 指示 出 它们 和 包含 数 


据 。.align n 指 示 后 面 这 些 行 的 元 素 应 该 是 按照 2 来 边界 对 齐 的 。 因 此 ，.align 2 就 是 下 一 个 元 素 按照 字 对 
齐 。.globl main 声明 了 main 是 一 个 全 局 的 符号 ,应 当 对 于 其 他 文件 中 的 代码 来 说 是 可 见 的 。 最 
后 ，.asciiz 保 存 了 内 存 中 的 空 终 结 符 。 


对 比 之 下 ,图 B-1-5 的 C 程序 不 但 短 而 且 很 清晰 ， 因 为 具有 记忆 名字 的 变量 和 循环 是 显 式 . 


的 ， 而 不 是 分 支 结构 的 。 实 际 上 ，C 程序 是 唯一 一 个 我 们 自己 写 的 。 其 他 形式 的 程序 都 是 C 编译 
喜 和 汇编 器 产生 的 。 





#inciude <stdio.h> 
int 
main (int argc, char *argv[]) 
int i; 
int sum = 0， 


for {i = 0; i <= 100; i = i+1) gum = sum + i* i; 
printf ("The sum from 0 .. 100 ie $d\n", sum); 





图 B-1-5 使 用 C 程序 语言 编写 的 程序 
通常 ,汇编 语言 扮演 两 个 角色 〈 见 图 B-1-6) 。 第 一 个 角色 是 编译 器 的 输出 语言 。 编译 器 将 
使 用 高 级 语言 (C 或 者 Pascal) 写 的 程序 翻译 成 机 器 语言 或 者 汇编 语言 示 的 等 价 的 程序 。 高 级 
语言 被 称 为 源 语 育 ”， 而 编译 器 的 输出 是 目标 语言 。 
高 级 语言 程序 


程序 








汇编 语言 程序 
图 B-1-6 汇编 语言 由 程序 员 编 写 或 由 编译 器 输出 





吕 一 种 直接 用 来 编写 程序 的 高 级 语言 。 
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汇编 语言 的 另 一 个 角色 是 作为 一 种 编程 语言 。 这 个 角色 通常 是 它 的 主要 功能 。 然 而 , 今天 由 
于 大 的 内 存 以 及 更 优良 的 编译 器 ， 很 多 程序 员 使 用 高 级 语言 编写 程序 ， 而 且 很 少 看 见 计算 机 执 
行 的 指令 。 然 而 ， 汇 编 语言 仍然 是 很 重要 ， 当 速度 和 面积 很 关键 或 者 为 了 开发 硬件 特性 ， 而 高 级 
语言 中 没有 这 些 特性 时 。 

虽然 本 附录 关注 MIPS 汇编 语言 ， 但 汇编 语言 编程 在 很 多 的 其 他 机 器 上 也 是 很 相似 的 。CISC 
机 屁 (如 VAX〉 中 的 附加 指令 以 及 寻 址 模式 ， 可 使 得 汇编 程序 变 短 ， 但 是 不 会 改变 程序 的 汇编 
流程 ， 而 且 为 汇编 语言 提供 了 高 级 语言 的 优势 ， 例 如 类 型 检测 以 及 结构 控制 流 。 


B. 1. 1 什么 时 候 使 用 汇编 语言 


与 高 级 语言 相 比 ， 使 用 汇编 语言 编程 的 主要 原因 是 ， 它 在 速度 和 代码 体积 方面 具有 优势 ， 而 
这 两 者 极为 重要 。 例 如 ， 一 台 算 机 ， 它 控制 着 机 器 的 一 个 部 分 ， 如 汽车 刹车 。 一 台 计 算 机 被 合并 
到 为 一 个 设备 中 ， 例 如 一 辆 汽车 ， 该 计算 机 就 被 称 作 谋 入 式 计 算 机 。 这 种 类 型 的 计算 机 需要 对 外 
部 世界 的 事件 做 出 快速 的 可 预测 的 反应 。 由 于 编译 器 对 操作 所 花费 的 时 间 引 入 了 不 确定 性 ， 程 
序 员 可 能 会 发 现 很 难保 证 高 级 语言 编写 的 程序 能 在 给 定 的 时 间 间 隔 (传感器 检测 到 轮胎 打滑 后 
的 一 毫秒 内 ) 做 出 响应 。 一 个 汇编 语言 程序 员 ， 在 另 一 方面 ， 具 有 对 指令 执行 的 紧密 控制 。 另 
外 ， 在 角 人 式 应 用 中 ， 减 小 了 代码 的 体积 ， 可 使 用 更 小 的 存储 芯片 ， 减 小 嵌入 式 计算 机 的 代价 。 

一 种 混合 的 方法 是 ， 程 序 大 部 分 用 高 级 语言 编写 ， 时 间 关 键 部 分 用 汇编 语言 编写 ， 同 时 利用 
这 两 种 语言 。 程 序 通常 花费 很 多 时 间 执 行程 序 源 代 码 中 的 很 少 一 部 分 。 这 种 发 现 就 是 cache 中 的 
局 部 性 原理 ( 见 第 5 章 的 5.1 节 )。 

程序 分 析 测 量 一 个 程序 在 哪里 花费 了 时 间 并 找 出 其 时 间 关 键 部 分 。 大 多 情况 下 ， 程 序 的 这 
个 部 分 可 以 使 用 更 好 的 数据 结构 或 者 算法 来 实现 。 然 而 ， 有 时 候 ， 显 著 的 性 能 提高 只 能 通过 用 汇 
编 呈 言 重 写 那 段 关 键 代码 得 到 。 z 

这 种 改进 并 不 意味 着 高 级 语言 的 编译 器 就 失效 了 。 在 为 整个 程序 产生 统一 的 高 质量 机 器 代 
人 码 方面 ， 编 译 器 通常 比 程序 员 效 果 更 好 。 然 而 ， 程 序 员 比 编译 器 在 更 深层 次 上 理解 程序 的 算法 和 
行为 ， 而 且 能 够 通过 大 量 的 努力 和 精巧 的 设计 提高 小 眉 代 码 的 质量 。 尤 其 ,编程 人 员 在 编写 代码 
”时 ， 同 时 考虑 好 几 个 子 程序 段 。 编 译 器 通常 单独 编译 一 个 程序 段 ， 而 旦 必须 遵循 严格 的 规则 ， 在 
程序 段 的 边界 处 管理 寄存 器 的 使 用 。 通 过 在 寄存 器 中 保存 那些 经 常 被 使 用 的 值 ， 甚 至 跨 域 程序 
边 务 ， 编 程 人 员 可 以 使 得 程序 运行 得 更 快 。 

汇编 语言 的 另 一 个 主要 优点 是 能 够 利用 定制 的 指令 一 例如， 字符 串 复制 指令 或 者 模式 匹 
配 指 令 。 很 多 时 候 ， 编 译 器 不 能 确定 一 个 循环 程序 能 不 能 被 一 条 指令 蔡 代 掉 。 然 而 ， 编 写 循环 的 
都 个 程序 员 能 够 很 容易 地 使 用 一 个 指令 将 其 蔡 换 掉 。 

目前 ， 由 于 编译 技术 的 提高 以 及 机 器 流水 线 的 存在 带 来 的 复杂 度 ( 见 第 4 章 ) ， 程 序 员 很 难 
比 编译 辟 更 具 优势 。 

使 用 汇编 语言 的 最 后 一 个 原因 是 ， 没 有 哪个 高 级 语言 能 够 适用 于 一 个 特定 的 计算 机 。 很 多 
老 的 或 者 定制 的 计算 机 没有 编译 器 ， 所 以 编程 人 员 唯 一 的 选择 就 是 汇编 语言 


B. 1.2 汇编 语言 的 缺点 


汇编 语言 的 很 多 缺点 极 大 地 限制 了 它 的 广泛 使 用 。 也 许 它 的 主要 缺点 就 是 使 用 汇编 语言 编 
号 的 程序 本 质 上 是 针对 特定 机 器 的 ， 而 且 如 果 和 需要 在 另 一 种 计算 机 结构 中 运行 ， 就 必须 重 写 。 第 
1 剖 讨 论 了 计算 机 的 快速 发 展 ， 意 味 着 体系 结构 变 得 过 时 。 一 个 汇编 语言 程序 仍旧 和 它 的 原始 休 
系 结构 紧 紧 地 绑 定 在 一 起 ， 即 使 该 计算 机 已 被 句 新 、 快 速 、 性 价 比 更 高 的 机 器 所 迹 豆 。 

站 编 语言 的 另 一 个 缺点 是 ， 汇 编程 序 比 等 价 的 高 级 语言 程序 要 更 长 。 例 如 ， 图 B-1.5 的 C 程 
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序 仅 有 11 行 , 但 是 图 B-1-4 的 汇编 程序 有 31 行 。 在 更 复杂 的 程序 中 ,汇编 和 高 级 语言 程序 的 比 
率 ( 扩 展 因 子 ) 将 更 长 ， 远 不 止 像 在 这 个 例子 中 的 3 倍 这 样 。 不 幸 的 是 ， 实 际 的 研究 表明 ， 程 
序 员 能 够 每 天 大 约 编写 同 高 级 语言 行 数 一 样 多 的 汇编 语言 。 这 就 意味 着 程序 员 使 用 高 级 语言 
约会 产生 x 倍 的 生产 率 ， 这 里 的 x 是 汇编 语言 扩展 因子 。 

长 的 程序 更 难 阅读 和 理解 ， 而 且 这 些 代 码 会 包含 更 多 的 错误 使 得 问题 更 为 恶化 。 汇 编 语 言 
使 得 这 个 问题 恶化 ， 因 为 它 缺 乏 完 备 的 结构 。 常 见 的 编程 用 语 ， 例 如 站 -then 语句 和 循环 ， 汇 编 
语言 必须 通过 分 支 和 跳 转 来 实现 。 导 致 程序 变 得 很 难 读 慌 ， 因 为 读者 必须 从 汇编 语言 的 每 一 名 
来 为 每 个 高 级 语言 结构 重建 ， 这 是 很 困难 的 。 例 如 .看 图 B-1-4 并 回答 下 面 的 问题 : 使 用 的 什么 
循环 ? 它 的 下 界 和 上 界 分 别 是 什么 ? 

精 解 : 不 需要 汇编 器 ， 编 译 器 直接 产生 机 器 语言 。 与 使 用 汇编 器 作为 编译 的 一 部 分 的 那些 编译 器 相 比 ， 
这 些 编译 器 通常 执行 的 更 快 。 然 而 ， 产 生机 器 码 的 编译 器 必须 执行 一 个 汇编 器 通常 执行 的 那些 任务 ， 例 如 ， 
翻译 地 址 ， 将 指令 编码 成 二 进 制 数字 。 在 编译 速度 和 编译 器 的 简洁 性 之 间 进 行 折 中 。 

精 解 : 尽管 有 这 些 考虑 ， 一 些 嵌 入 式 应 用 使 用 高 级 语言 编写 。 很 多 这 些 应 用 的 程序 很 大 ， 而 且 很 复杂 ， 
这 样 的 程序 必须 极其 可 靠 。 汇 编 语言 程序 相对 于 高 级 语言 程序 更 长 而 且 更 难 编写 。 这 极 大 地 增加 了 使 用 汇 
编 语 言 编写 程序 的 代价 ， 使 得 验证 这 些 程序 的 正确 性 极其 困难 。 事 实 上 ， 这 些 考虑 导致 为 这 些 嵌 人 式 系统 
埋单 的 国防 部 门 开 发 Ada 一 一 一 种 编写 能 人 式 系 统 的 新 高 级 语言 。 


B.2 汇编 器 

汇编 器 将 汇编 语言 文件 翻译 成 二 进 制 机 器 指令 和 二 进 制 数据 组 成 的 文件 。 翻 译 过 程 有 两 个 
主要 步骤 。 第 一 步 ， 找 到 标签 (labels) 对 应 的 内 存 地 址 ， 因 此 符号 名 字 和 地 址 之 间 的 关系 在 指 
令 被 翻译 的 时 候 就 确定 了 。 第 二 步 ， 将 每 个 汇编 语句 的 数字 化 的 操作 码 、 寄 存 器 指示 器 和 标签 翻 
译 成 合法 的 指令 。 就 如 图 B-1-1 所 示 ， 汇 编 器 产生 一 个 输出 文件 ， 叫 做 目标 文件 ， 目 标 文件 包含 
机 器 指令 、 数 据 和 书签 信息 。 

目标 文件 通常 不 能 被 执行 ， 因 为 它 引用 了 其 他 文件 中 的 过 程 或 数据 。 如 果 标 签 目标 可 以 被 
定义 它 的 文件 之 外 的 其 他 文件 所 应 用 ， 这 个 标签 是 外 部 的 9 (被 称 为 全 局 的 )。 标签 是 局 部 的 ， 
如 采 仅仅 能 在 定义 它 的 文件 内 部 被 引用 。 很 多 的 汇编 器 ， 默 认 标签 是 局 部 的 ， 而 且 必 须 是 显示 声 
明 为 全 局 的 。 子 程序 和 全 局 变量 需要 外 部 标签 ， 因 为 它们 在 一 个 程序 中 被 很 多 文件 所 引用 。 局 部 ” 
标签 > 隐藏 了 对 别 的 模块 不 可 见 的 名 字 一 一 例如 ，C 中 的 静态 函数 仅仅 被 同一 个 文件 中 的 函数 所 
调用 。 另 外 ， 编 译 产 生 的 名 字 一 一 例如 ， 一 个 循环 的 开始 处 的 指令 的 名 字 就 是 局 部 的 ， 这 样 
编译 器 就 不 需要 为 每 个 文件 产生 唯一 的 名 字 。 

举例 局 部 和 全 局 标签 

考虑 图 B- 1-4 中 的 程序 。 子 程序 具有 一 个 外 部 标签 〈 全 局 ) main， 它 包 含 了 两 个 局 部 标 
签 一 一 loopt 和 str 一 一 它们 仅仅 在 这 个 汇编 文件 中 是 可 见 的。 最终 ， 包含 一 个 对 外 部 标签 
Printf 来 说 未 处 理 〈unresolved) 的 引用 ，printf 是 一 个 打印 数值 的 库 程 序 。 图 B- 1-4 中 的 标签 
能 否 从 另 一 个 文件 引用 ? 

仅 全 局 标签 在 外 部 是 可 见 的 ， 所 以 仅 main 标签 可 以 在 外 部 被 引用 。 

因为 汇编 器 独立 地 处 理 每 一 个 文件 ， 它 仅 知道 每 个 局 部 标签 的 地 址 。 汇编 器 依赖 于 别 的 工 
有 具 ， 如 利用 链接 器 (linker) 将 目标 文件 以 及 库 文件 整合 起 来 形成 可 执行 文件 ， 并 且 将 外 部 标签 
处 理 掉 。 汇编 器 通过 提供 标签 的 列表 以 及 未 处 理 的 引用 来 辅助 链接 器 工作 。 




















© 各 二 局 标 入 (extemal label，global label) ， 标 签 对 应 一 个 目标 ， 这 个 目标 可 以 在 定义 这 个 标签 的 文件 之 外 
引用 。 


已 ”局 部 标签 (local label) : 标签 对 应 一 个 目标 ， 这 个 目标 仅仅 可 以 被 定义 这 个 标签 的 文件 内 部 引用 。 
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然而 ， 局 部 标签 对 汇编 器 来 说 还 是 个 令 人 感 兴趣 的 挑 成 。 和 大 部 分 高 级 语言 中 的 名 字 不 同 ， 
汇编 标签 可 能 在 它们 定义 之 前 就 使 用 。 例 如 ， 在 图 B-1-4 中 ， 标 签 str 在 定义 之 前 就 被 1a 指令 
使 用 。 一 个 前 向 引用 ”的 可 能 性 ， 就 像 前 面 这 个 例子 ， 强 迫 汇 编 器 将 一 个 程序 的 翻译 过 程 分 成 两 
步 : 首先 找到 所 有 的 标签 然后 产生 指令 。 例 如 ， 当 汇编 器 看 到 指令 la， 它 不 知道 这 个 标签 为 str 
的 字 在 哪里 ， 或 者 甚至 不 知道 str 这 个 标签 到 底 是 指令 还 是 数据 。 

第 一 壳 ， 汇 编 器 将 汇编 文件 的 每 一 行 恋人， 将 其 分 解 成 几 个 部 分 。 这 些 部 分 叫做 词汇 单位 ， 
都 是 独立 的 字 、 数 字 和 标点 符号 。 例 如 ， 下 面 的 行 


ble $t0, 100, lo0op 


包含 6 个 词汇 单元 : ble 指令 的 操作 码 、 寄 存 器 说 明 符 $to、 豆 号、 数字 100、 人 到 号， 还 有 符 
号 loopeo 

如 果 一 行 以 标签 作为 开始 ， 汇 编 器 在 它 的 符号 表 “中 记录 标签 的 名 字 ， 以 及 指令 在 内 存 中 占 
据 的 内 存 字 的 地 址 。 汇 编 器 接着 计算 当前 行 中 这 个 指令 内 存 中 占据 多 少 个 内 存 字 。 通 过 跟踪 指 
令 大 小 ， 汇 编 吕 可 以 确定 下 一 个 指令 在 哪里 。 为 了 计算 一 个 可 变 长 度 的 指令 大 小 ， 例 如 在 VAX 
中 ， 汇 编 器 必须 仔细 地 确定 这 些 。 然 而 ， 对 于 固定 长 度 的 指令 ， 像 MIPS 中 的 那些 ， 仅 仅 需 要 粗 
略 计 算 。 汇 编 器 采用 类 似 的 办 法 计算 数据 语句 需要 的 空间 。 当 汇编 器 到 达 一 个 汇编 文件 未 尾 时 ， 
符号 表 记 录 了 文件 中 每 个 标签 的 位 置 。 

第 二 遍 ， 汇 编 器 使 用 整个 文件 的 符号 表 中 的 信息 ， 在 这 一 遍 产 生机 器 代码 。 汇 编 器 再 一 次 检查 文 
件 中 每 一 行 。 如 果 一 行 中 包含 了 指令 ， 汇编 硕 将 其 指令 码 和 操作 数 (寄存 器 指示 器 或 者 内 存 地 址 ) 组 
合成 一 条 合法 的 指令 。 这 个 过 程 和 第 2 章 的 2.5 节 的 做 法 很 相似 。 引用 在 男 一 个 文件 中 定义 的 外 部 标 
签 指令 和 数据 字 不 能 完全 地 汇编 (因为 它们 是 未 决 的 ) ， 因 为 符号 的 地 址 不 在 符号 表 中 。 汇编 右 确 实 
不 能 对 这 些 未 决 的 引用 发 牢骚 ， 因 为 对 应 的 标签 很 可 能 在 另 一 个 文件 中 被 定义 。 

汇编 语言 是 一 种 编程 语言 。 它 和 高 级 语言 (如 BASIC、Java 和 C) 的 主要 不 同 是 汇编 语言 提 
供 了 很 少 、 简 单 的 数据 以 及 控制 流 。 汇 编 语言 程序 不 能 指定 一 个 变量 中 的 数据 类 型 。 相 反 ， 编 程 
和信 员 必须 对 一 个 值 使 用 恰当 的 操作 (例如 ， 整 数 或 者 浮 点 加 法 )。 另 外 ， 在 汇编 语言 中 ， 程 序 的 
所 有 控制 流 必须 使 用 go to 实现 。 这 两 个 因 素 使 得 汇编 语言 编程 对 于 任何 机 器 MIPS 或 者 
x86 比 使 用 高 级 语言 编程 更 困难 而 且 更 容易 出 错 。 

精 解 : 如 果 汇 编 莫 的 速度 比较 重要 ， 两 步 的 过 程 可 以 采用 反 向 修补 8 技术 一 次 遍历 汇编 文件 来 实现 。 
在 这 一 次 遍历 中 ， 汇 编 器 构建 每 个 指令 的 一 个 (可 能 不 完整 的 ) 二 进 制 表示 。 如 果 指 令 引 用 了 一 个 还 没有 
定义 的 标签 ， 汇 编 器 在 表 中 记录 下 这 个 标签 和 指令 。 当 标签 被 定义 后 ， 汇编 器 查询 这 个 表 ， 找 到 包含 对 标 
签 的 所 有 前 向 (forward) 引用 的 所 有 指令 。 汇 编 器 回 卷 并 校正 它们 的 二 进 制 表示 ， 然 后 将 它们 并 人 标签 地 
址 ， 反 向 修补 技术 能 加 速 汇编 的 原因 在 于 : 汇编 器 对 输入 只 读 一 次 。 然 而 ， 它 需 要 汇编 器 将 程序 的 整个 二 
进 制 表示 保持 在 内 存 中 。 这 样 指令 才 可 以 被 反复 修补 。 这 个 需求 会 限制 被 汇编 的 程序 大 小 。 这 个 过 程 被 那 
种 具有 几 种 类 型 的 跨度 范围 不 同 的 分 支 的 机 器 复杂 化 了 。 当 汇 编 器 第 一 次 在 分 支 指令 中 见 到 没有 处 理 的 标 
签 时 ， 它 必须 要 么 使 用 最 大 的 分 支 ， 要 么 冒险 返回 去 ， 并 且 重 新 调整 很 多 指令 ， 以 便 为 大 的 分 支 指 令 腾 出 
位 置 。 


B. 2.1 自 标 文件 的 格式 
汇编 器 产生 月 标 文件 。UNIX 上 的 目标 文件 包含 6 个 不 同 的 部 分 ( 见 图 B-2-1) : 








前 向 引用 (forward reference) : 一 个 标签 在 被 定义 前 之 就 被 使 用 。 

符号 表 (symbol table): 用 来 将 标签 的 名 字 和 指令 占用 的 内 存 字 的 地 址 相 匹配 的 -一 个 表 。 

反问 修补 (backpatching) : 一 种 将 汇编 语言 翻译 成 机 器 指令 的 办 法 ， 其 中 汇编 器 在 第 一 遍 扫 描 程 序 时 就 构建 一 
个 《可 能 不 完整 的 ) 每 个 指令 的 二 进 制 表示 ， 然后 返回 对 前 面 没 有 定义 的 标签 进行 替换 。 


DOD 


496 . 附录 日 汇编 器 、 链 接 器 和 SPIM 仿真 器 


图 B-2-1 目标 文件 
UNIX 的 汇编 器 产生 一 个 具有 6 个 不 同 段 的 目标 文件 。 


e 目标 文件 头 描 述 了 文件 中 其 他 段 的 大 小 和 位 置 。 

。 代码 段 ”包含 了 源 文件 中 程序 的 机 器 语言 代码 。 这 些 程 序 可 能 是 不 可 执行 的 ， 因 为 包含 
了 未 处 理 的 引用 。 

。 数据 段 “ 包 含 了 源 文件 中 数据 的 二 进 制 表示 。 数 据 可 能 是 不 完整 的 ， 因 为 未 解决 的 引用 
可 能 包含 在 其 他 文件 中 。 

。 重 定位 信息 指明 指令 和 数据 字 依 赖 于 绝对 地 址 8 。 如 果 程 序 的 这 些 部 分 在 内 存 中 被 移 
动 ， 这 些 引 用 必须 改变 。 

。 符号 表 (symbol table) 中 包含 源 文件 中 外 部 标签 对 应 的 地 址 ， 列 出 未 处 理 的 引用 。 

。 调试 信息 (debugging information) 包含 了 被 编译 的 程序 的 简洁 描述 ， 这 样 调试 器 可 以 找 
到 源 文件 中 对 应 行 的 指令 地 址 ， 而 且 打 印 出 可 读 形式 的 数据 结构 。 

汇编 厦 产 生 包 含 程序 和 数据 的 二 进 制 表示 的 目标 文件 ， 以 及 其 他 有 助 于 将 程序 的 片段 连接 
起 来 的 信息 。 

重 定 位 信息 是 必要 的 ， 因 为 当 一 个 程序 片段 或 者 数据 块 和 程序 剩余 的 部 分 链接 后 ， 汇 编 器 不 知 
道 这 些 程序 或 者 代码 将 会 被 存放 到 内 存 的 什么 位 置 。 一 个 文件 的 程序 和 数据 被 保存 在 内 存 中 的 一 个 
连续 的 区 域 ， 但 是 汇编 器 不 知道 这 段 内 存 如 何 定位 。 汇 编 器 还 会 将 一 些 符号 表 和 人 口传 递 给 链接 器 。 
尤其 ， 汇 编 器 必须 记录 哪个 外 部 符号 在 一 个 文件 中 定义 ， 这 个 文件 中 哪些 引用 没有 解决 。 

精 解 : 为 方便 起 见 ， 汇 编 器 假设 每 个 文件 以 相同 的 地 址 开始 〈 例 如 ， 地 址 0) ， 当 它们 在 内 存 中 分 配 地 
址 时 ， 期 望 链接 器 把 代码 和 数据 重新 定位 。 汇 编 器 产生 重 定位 信息 ， 这 些 信息 包含 一 个 人 口 ， 描 述 文件 中 
的 每 个 指令 或 数据 。 对 于 MIPS， 仅 仅 子 程序 调用 、 装 载 和 保存 指令 引用 绝对 地 址 。 例 如 分 支 ， 使 用 指令 
PC 相对 寻 址 ， 不 需要 定位 。 


B. 2.2 附加 工具 


汇编 右 提 供 一 类 方便 的 特性 帮助 汇编 程序 变 得 短 而 且 容易 写 ， 但 是 没有 从 根本 上 改变 汇编 语言 . 
例如 ， 数 据 布局 指令 允许 一 个 编程 者 来 描述 以 一 种 比 二 进 制 方式 更 简明 和 自 然 的 方式 来 表示 数据 。 

在 图 B-1-4 中 ， 指 令 

-asciiz The sum from0 .100 is % d\n” 

在 内 存 中 保存 字符 串 的 字符 。 将 这 条 指令 和 它 的 各 个 字符 的 ASCII 值 (这 些 字 符 的 ASCII 表 
示 见 第 2 章 的 图 2-15) 进行 比较 : 

‘byte 84, 104, 101, 32, 115, 117, 109, 32 

-byte 102, 114, 111, 109, 32, 48, 32, 46 


‘byte 46, 32, 49, 48, 48, 32, 105, 115 
.byte 32, 37, 100, 10,0 


asciiz 描述 更 容易 读 懂 ， 因 为 它 使 用 字母 表示 字符 ， 而 不 是 使 用 二 进 制 数字 。 汇编 器 能 够 比 
人 更 快 而 且 更 准确 地 将 字符 转换 成 它们 的 二 进 制 表示 。 数据 布局 指令 指定 一 个 人 类 可 读 的 数据 
格式 ， 汇 编 器 将 其 转换 成 二 进 制 。 其 他 字符 串 指令 布局 指令 在 B. 10 节 描述 。 


名 代码 段 〈iext segment) : UNIX 目标 文件 的 一 个 段 ， 源 文 件 中 程序 的 机 器 语言 代码 。 

电 ”数据 段 (data segment) ， UNIX 目标 文件 或 者 可 执行 文件 的 一 个 段 ， 包含 程序 初始 所 使 用 的 数据 的 二 进 制 表示 。 
加 ” 重 定位 信息 (relocation infornation) ，UNIX 目标 文件 的 一 个 段 ， 根 据 绝 对 地 址 来 区 别 数据 字 和 指令 。 

图 绝对 地 址 (absolute address ) : 内 存 中 标量 或 者 程序 的 实际 地 址 。 
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EEE 列 ”使 用 这 个 指令 定义 一 串 字 节 : 

.asciiz“The quick brown fox jumps over the lazy dog 
答案 

.byte 84, 104, 101, 32, 113, 117, 105, 99 

.byte 107, 32, 98, 114, 111, 119, 110, 32 

byte 102, 111, 120, 32, 106, 117, 109, 112 

.byte 115, 32, 111, 118, 101, 11]4, 32, 116 

.byte 104, 101, 32, 108, 97, 122, 121, 32 

.byte 100, 111, 103, 0 


宏 (macro) 是 一 种 模式 匹配 和 替换 工具 ， 提 供 一 种 简单 的 机 制 来 命名 一 个 经 常 使 用 的 指令 序 
列 。 不 用 每 次 使 用 同样 的 指令 时 重复 输入 ,程序 员 只 要 启动 宏 ， 汇编 器 使 用 对 应 的 指令 序列 阁 换 这 
个 宏 调 用 。 宏 ， 如 同 子 程序 ,允许 程序 员 为 一 个 公用 操作 产生 和 命名 一 个 新 的 抽象 。 和 子 程序 不 同 
的 是 ， 宏 不 会 导致 一 个 子 程序 调用 ， 也 不 会 在 程序 运行 时 返回 ， 因 为 一 个 宏 的 调用 会 在 程序 汇编 的 
时 候 被 一 个 宏 体 蔡 换 。 在 蔡 换 完毕 后 ， 产 生 的 汇编 程序 和 没有 使 用 宏 的 对 等 程序 没有 区 别 。 
举例 去 

例如 ， 假 设 程序 员 需 要 打印 很 多 数字 。 一 个 库 例 程 printf 接受 一 个 格式 化 的 字符 串 ， 以 及 
一 个 或 更 多 个 要 打印 的 值 作为 其 参数 。 程 序 员 能 够 使 用 下 面 的 指令 打印 出 寄存 器 87 中 的 整数 


.data 
lnt str: .asciiz“%d” 
text 
la $a0,int St # 加 载 字符 串 的 地 址 到 第 一 个 参数 
mov $al, $7 # 将 值 加 载 到 第 二 个 参数 
jal printf # 调 用 printf 例 程 


Gata 指令 告诉 汇编 器 将 字符 串 保 存 到 程序 的 数据 段 ， 而 且 .text 指令 告诉 汇编 器 将 指令 保存 
到 代码 段 。 

然而 ， 以 这 种 方式 打印 很 多 数字 (程序 写 起 来 ) 相当 乏味 ， 而 且 产生 的 宛 长 的 程序 让 人 很 
难 恋人 复 。 一 种 可 供 选 择 的 办 法 是 引信 宏 ，print_int， 来 打印 一 个 整数 : 


.data 
lnt str: .asciiz“$d” 
text 
-macro print int ($arg) 
la $a0,int_str  # 浅 字符 串 的 地 址 加 载 到 第 一 个 参数 
mov $al, $arg 相 [ 载 宏 的 参数 ( $arg) 到 第 二 个 参数 
jal printf # 调 用 printf 例 程 
.end macro 
print int ($7) 
宏 有 一 个 形式 参数 ”$arg， 它 是 用 来 为 宏 的 参数 命名 。 当 宏 被 展开 时 ， 贯穿 宏 体 的 形式 参 
数 被 来 自 调用 的 参数 替换 。 之 后 汇编 器 使 用 最 新 扩展 的 宏 体 替 换 这 个 宏 调 用 。 对 于 第 一 次 print 
int 的 调用 ， 参 数 是 8? ， 所 以 宏 扩 展 成 以 下 代码 ; 
la S$a0,int str 
mov $al, $7 
Jal printf 
在 第 二 次 调用 print_int 时 ， 也 就 是 说 ，print_int ( sto) ， 参 数 是 $t0 ， 宏 被 展开 为 ， 
la $a0,int str 
mov $al, $t0 
jal printf 


调用 print int ($a0) 展 开 后 的 结果 是 什么 ? 


加 ”形式 参数 〈formmal parameter) : 过 程 或 者 宏 的 参数 变量 ， 一 旦 这 个 变量 被 参数 替换 ， 宏 就 被 展开 。 
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la S$a0,int str 
mov $al, $ad0 


jal printf 
答案 

这 个 例子 暴露 了 安 的 一 个 缺点 。 程序 员 使 用 宏 必 须 意识 到 print int 使 用 寄存 器 $a0, 所 以 
不 能 正确 地 打印 那个 寄存 器 的 值 。 
硬件 软件 接口 

一 些 编 译 吕 也 实现 了 伪 指 令 《pseudoinstruction) ， 这 是 汇编 器 提供 的 指令 ， 但 是 在 硬件 上 没 
有 实现 。 第 2 章 包 含 很 多 MIPS 汇编 器 如 何 综合 伪 指 令 和 寻 址 方式 的 例子 ， 该 寻 址 方式 来 自 Spar- 
tan MIPS 硬件 指令 集 。 第 2 章 的 2.7 节 描述 了 汇编 器 如 何 从 其 他 两 个 指令 〈slt 和 bne) 综合 blt 
指令 。 通 过 扩展 指令 集 ，MIPS 汇编 器 使 得 汇编 语言 编程 更 容易 ， 而 没有 使 硬件 变 得 更 复杂 。 很 
多 伪 指 令 能 够 使 用 密 来 模拟 ， 但 是 有 这 些 指令 ，MIPS 汇编 器 能 产生 更 好 的 代码 ， 因 为 它 使 用 专 
用 的 寄存 器 ( $at)， 能 够 优化 产生 的 代码 。 

精 解 : 汇编 右 有 条 件 地 将 代码 汇编 起 来 ， 这 人 允许 当 汇 编程 序 时 ， 编 程 者 可 以 将 一 组 指令 包含 进去 ， 或 
者 将 一 组 指令 别 除 出 去 。 当 几 个 版 本 的 程序 在 一 定 程 度 上 不 同时 ， 这 个 特性 尤其 有 用 。 不 是 将 这 些 程序 放 
在 单独 的 文件 中 一 一 这 样 会 将 通用 代码 中 的 固定 错误 (bug) 复杂 化 一 一 编程 者 通常 将 几 个 版 本 融合 成 一 
个 文件 。 代 码 的 一 个 特定 的 版 本 被 有 条 件 地 汇编 ， 以 使 综合 程序 的 其 他 版 本 时 ， 这 部 分 代码 可 排除 在 外 。 

如 果 宏 和 条 件 汇编 有 用 的 话 ， 为 什么 UNIX 系统 很 少 提供 汇编 器 ? 一 个 原因 是 ， 在 这 些 系统 
上 很 多 编程 者 使 用 像 C 这 样 的 高 级 语言 编写 程序 。 大 部 分 汇编 代码 由 编译 器 产生 ， 编 译 器 发 现 
重复 代码 比 定义 宏 更 方便 。 另 一 个 原因 是 ，UNIX 上 的 其 他 工具 一 一 例如 ，CcC 的 预 处 理 器 cop， 或 
者 一 个 通用 的 宏 处 理 器 m4 一 一 能 提供 汇编 程序 的 宏 定义 以 及 条 件 汇编 。 


B. 3 链接 器 


单独 编译 允许 程序 被 分 割 成 多 个 片段 ， 它 们 被 保存 在 不 同 的 文件 中 。 每 个 文件 包含 一 个 逻辑 
相关 的 子 程序 以 及 数据 结构 组 成 的 模块 ， 这 些 文件 形成 一 个 大 的 程序 。 文 件 能 够 被 编译 而 且 和 其 他 
的 文件 一 样 单 独 被 汇编 ， 所 以 一 个 模块 的 修改 不 需要 重新 编译 整个 程序 。 就 像 我 们 在 上 面 讨 论 的 ， 
单独 编译 需要 一 个 格外 的 链接 步骤 ， 以 将 单独 的 模块 组 成 一 个 目标 文件 ， 将 其 未 解决 的 引用 解决 。 
将 多 个 文件 融合 在 一 起 的 工具 叫做 链接 器 (linker) ( 见 图 B-3-1) 。 它 执行 三 个 任务 : 
目标 文件 
sub: 
目标 文件 : 可 执行 文件 


main: main: 

Jal ?22 | Jal prEinte 
© a 

@ 


® | [1 
jal ??? jal OD 
> rantr: 

Ca Sub Tm 链接 器 一 
重 定 位 记录 <call, printf 


J Sl sub 


print: 








指令 


图 B-3-1 链接 器 搜查 一 组 目标 文件 和 程序 库 ， 寻 找 在 程序 中 使 用 的 非 局 部 酉 数 ， 
将 其 合并 成 一 个 可 执行 文件 ， 而 且 解决 不 同文 件 间 的 程序 的 引用 


提单 独 编译 separate compilation) : 将 程序 划分 成 多 个 文件 ， 每 个 文件 被 编译 时 ， 并 不 知道 其 他 文件 的 信息 。 
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。 为 了 寻找 程序 所 使 用 的 库 程 序 而 查询 程序 库 。 
。 为 每 个 模块 中 的 代码 将 要 占用 的 内 存 确定 内 存 地 址 ， 通 过 调整 绝对 引用 ， 将 这些 指令 重 
定位 。 

。 解决 文件 间 的 引用 。 

链接 器 的 第 一 个 任务 是 确保 程序 不 包含 没有 定义 的 标签 。 链 接 器 匹配 外 部 的 符号 以 及 程序 
文件 中 未 解决 的 引用 。 如 果 一 个 文件 中 外 部 符号 和 另 一 文件 中 的 引用 具有 相同 名 字 的 标签 ， 则 
未 决 的 引用 被 确定 。 不 匹配 的 引用 意味 着 一 个 符号 被 使 用 ， 但 是 在 程序 的 任何 地 方 都 没有 定义 。 

在 链接 期 间 发 现 未 解决 的 引用 并 不 一 定 意 味 着 程序 员 犯 了 错误 。 程 序 可 能 引用 了 一 个 库 函 
数 ， 该 库 函 数 的 代码 不 在 传递 到 连接 器 的 目标 代码 中 。 在 程序 中 匹配 符号 完毕 后 ， 链 接 器 搜寻 系 
统 的 程序 库 ， 目 的 是 找 程序 中 引用 的 预定 义 的 子 程序 以 及 数据 结构 。 基 本 库 包 含 了 读 和 写 数据 ， 
分 配 和 收回 内 存 ， 执 行 数字 操作 。 别 的 库 包 含 访问 数据 库 ， 或 者 操作 终端 窗口 。 一 个 引用 未 解决 
符号 的 程序 不 在 任何 一 个 库 中 是 错误 的 而 且 不 能 被 链接 。 当 程序 使 用 了 库 例 程 ， 链 接 器 从 库 中 
提取 例 程 代码 ， 并 将 其 合并 到 程序 的 代码 段 。 这 个 新 的 例 程 反 过 来 可 能 依靠 别 的 库 例 程 ， 所 以 链 
接 器 继续 读 取 别 的 库 例 程 ， 直 到 没有 外 部 引用 是 没有 解决 的 或 者 没有 哪个 程序 是 不 能 被 找到 的 。 

如 采 所 有 的 外 部 引用 被 解决 了 ， 链 接 器 接 下 来 确定 每 个 模块 将 占用 的 内 存 地 址 。 因 为 文件 
在 汇编 上 独立 的 ， 汇 编 器 不 知道 一 个 模块 的 指令 或 者 数据 相对 别 的 文件 放 在 哪里 。 当 链接 器 在 
内 存 中 放 一 个 模块 时 ， 所 有 的 绝对 引用 必须 重 定位 以 便 反映 其 真实 的 地 址 。 因 为 链接 器 具有 重 
定位 信息 来 指出 所 有 重 定位 引用 ， 它 能 够 高 效 地 找到 以 及 反 向 修补 这 些 引 用 。 

链接 顺产 生 一 个 可 执行 的 文件 ， 这 个 文件 可 以 在 计算 机 上 运行 。 典 型 地 ， 除 了 不 包含 没有 被 
解决 的 引用 或 者 重 定位 信息 ， 这 个 文件 具有 和 目标 文件 一 样 的 格式 。 


B. 4 加 载 


程序 在 链接 阶段 没有 错误 就 可 以 运行 。 在 运行 之 前 ， 程 序 保存 在 像 磁盘 这 样 的 二 级 存储 的 
一 个 文件 中 。 在 UNIX 系统 中 ， 操 作 系 统 核 心 将 一 个 程序 加 载 到 内 存 并 且 开 始 运 行 。 为 了 启动 一 
个 程序 ， 操 作 系统 执行 以 下 步骤 : 

1) 读 取 可 执行 文件 的 头 ， 目 的 是 确定 代码 段 和 数据 段 的 大 小 。 

2) 产生 程序 的 一 个 新 地 址 空间 。 这 个 地 址 空间 足够 大 ， 装 得 下 代码 段 和 数据 段 ， 还 有 堆栈 
段 ( 见 B.5 节 )。 

3) 将 可 执行 文件 中 的 指令 和 数据 复制 到 一 个 新 的 地 址 空间 。 

4) 将 传递 给 程序 的 参数 复制 到 堆栈 上 。 

3) 官 妇 化 机 器 寄存 器 。 通 常 ， 大 部 分 寄存 器 被 清 零 ， 但 是 堆栈 寄存 器 指针 必须 被 赋值 为 堆 
栈 地 址 的 初始 地 址 ( 见 B.5 节 )。 


6) 跳 转 到 一 个 启动 程序 ， 这 个 程序 从 堆栈 中 把 程序 的 参数 复制 到 寄存 器 ， 而 且 调 用 程序 的 
main 程序 。 如 果 main 程序 返回 ， 启 动 程序 退出 系统 调用 ， 终 目 程 序 的 执行 。 


B. 5 ”内 存 的 使 用 


下 面 几 节 描述 本 书 前 面 提 到 的 MIPS 体系 结构 。 前 面 几 章 主要 关注 硬件 ， 以 及 硬件 和 低级 软 
件 的 关系 。 这 些 章节 主要 关注 汇编 语言 编程 者 如 何 使 用 MIPS 硬件 。 描 述 在 很 多 MIPS 系统 上 的 
一 组 规程 。 很 多 情况 下， 硬件 不 会 影响 这 些 规程 。 相 反 ， 为 了 使 不 同 的 人 编写 的 程序 集合 在 起 
时 能 够 工作 ， 能 有 效 地 利用 MIPS 的 硬件 ， 这 些 规 程 代表 了 编程 人 员 为 了 遵循 一 些 相同 地 规定 的 
一 种 约定 。 
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基于 MIPS 的 系统 通常 将 内 存 分 割 成 三 个 部 分 ( 见 图 B-5-1) 。 第 一 部 分 ， 接 近 地 址 空间 的 底 
部 (开始 地 址 是 400000,。) ， 是 代码 段 ， 保 存 的 是 程序 的 指令 。 
”第 二 部 分 ,在 代码 段 的 上 面 ， 称 为 数据 段 ， 它 被 进 一 7 ， 
步 分 割 成 两 部 分 。 静 态 数据 (开始 地 址 是 10000000,。) 
包含 目标 代码 ， 它 的 大 小 对 于 编译 器 是 已 知 的 ， 其 内 容 在 
整个 程序 执行 期 间 有 效 。 例 如 在 C 语言 中 ， 全 局 变量 通常 
是 静态 分 配 的 ， 因 为 它们 在 程序 执行 的 任何 时 候 都 可 被 引 
用 。 链 接 器 既 为 静态 的 对 象 在 数据 段 分 配 地 址 ， 也 处 理 对 
这 些 对 象 的 引用 。 人 
紧 靠 着 静态 数据 之 上 的 就 是 动态 数据 。 这 个 数据 ， 正 
如 其 名 字 所 暗示 的 一 样 ， 是 在 程序 执行 过 程 中 分 配 的 。 在。 400000，。 
C 程序 中 ,malloe 库 例 程 发 现 并 返回 一 个 新 的 内 存 块 。 因 
为 编译 器 不 能 预测 一 个 程序 将 需要 分 配 多 大 的 内 存 ， 操 作 图 B-5-1 内 存 布 局 
系统 扩展 了 动态 内 存 的 范围 来 满足 这 个 需求 。 如 图 B-5-1 中 向 上 的 箭头 所 指示 的 ，malloc 通过 使 
用 系统 调用 sbrk 扩展 了 动态 内 存 ， 调 用 这 个 函数 会 导致 操作 系统 在 动态 数据 段 之 上 为 程序 的 虐 
拟 地 址 空间 加 载 更 多 的 页 ( 见 第 5 章 的 5.4 节 )。 
第 三 部 分 ， 程 序 堆栈 段 * 存 在 于 虚拟 地 址 空间 的 顶部 (从 地 址 7fHHEE ,开始 ) 。 和 动态 数据 相 
似 ， 一 个 程序 的 堆栈 段 的 最 大 尺寸 不 能 够 被 预先 知道 。 当 程序 向 堆栈 段 压 人 变量 时 ， 操 作 系统 会 
自动 向 下 〈 数 据 段 方 向 ) 扩展 堆栈 段 。 
这 种 三 段 分 割 的 内 存 格局 不 是 唯一 的 格局 。 然 而 ， 它 具备 两 个 重要 的 特性 : 动态 可 以 扩展 的 
段 尽量 隔 得 很 远 ， 而 且 能 够 扩展 ， 以 便 将 整个 程序 的 地 址 空间 全 部 用 完 。 
硬件 软件 接口 | 
由 寺 数 据 段 的 起 始 地 址 远 远 高 于 程序 的 起 始 地 址 10000000,。 ， 存 取 指 令 不 能 直接 使 用 它们 的 
16 位 偏 移 域 引 用 数据 对 象 〔 见 第 2 章 的 2.5 节 )。 例 如 ， 为 了 加 载 位 于 数据 段 地 址 10010020 的 
字 到 寄存 器 $vo 需要 两 个 指令 ， 


lui $s0,0x1001 可 x1001 是 十 六 进 制 数 
lw $v0,0x0020(8$s0) #0x10010000 +0x0020 =0x10010020 


(数字 之 前 的 0x 表示 这 个 数字 是 十 六 进 制 的 值 。 例 如 ， 0x8000 是 8000,< 或 者 32 768,,。) 

为 了 在 每 个 存 取 指 令 中 避免 重复 ui 指令，MIPS 系统 通常 使 用 一 个 专用 的 寄存 器 ( $gqp) 作为 
全 局 指针 指向 静态 数据 段 。 这 个 寄存 器 包含 了 地 址 10008000,。， 所 以 存 取 指 令 可 以 使 用 16 位 的 偏 移 来 
访问 静态 数据 段 的 第 一 个 64 KB。 拥 有 这 个 全 局 指针 ， 我 们 可 以 将 以 上 例子 改写 为 一 个 指令 ， 

lw $v0,0x8020 ( $gp) 

当然 ， 一 个 全 局 指针 寄存 器 使 得 寻 址 10000000,。 ~ 10010000,。 比 别 的 堆 地 址 定位 要 快 ，MIPS 
编译 器 通常 将 全 局 变量 存储 在 这 个 范围 ， 因 为 这 些 变量 具备 固定 的 地 址 ， 而 且 比 别 的 全 局 数据 
(例如 数组 ) 更 合适 。 


B. 6 过程 调 用 规范 


当 程 序 中 的 过 程 〈 procedure) 是 被 分 别 编译 时 ， 管理 寄存 器 使 用 的 规范 是 必要 的 。 为 了 纺 
详 一 个 某 个 过 程 ， 编 译 器 必须 知道 需要 哪些 寄存 器 ， 以 及 哪些 寄存 器 的 信息 需要 为 其 他 过 程 保 


堆栈 段 


数据 段 


代码 段 





护 ” 静 态 数据 〈 static data) : 包含 数据 的 那 部 分 内 存 ， 其 大 小 为 编译 器 所 知 ， 生 命 周 期 为 整个 程序 的 运行 时 间 。 
加 ”堆栈 段 (stack segment) ， 程序 用 来 保存 过 程 调用 幢 的 那 段 内 存 。 
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留 。 寄 存 器 使 用 的 规则 被 称 作 寄 存 器 使 用 "或 者 过 程 调用 规范 。 顾 名 思 义 ， 大 多 数 情况 下 ， 这 些 
规则 主要 用 于 约束 软件 ， 而 不 是 硬件 必须 遵守 的 。 然 而 ， 很 多 编译 器 以 及 编程 者 努力 遵循 这 些 规 
范 ， 因 为 违反 这 些 规则 会 导致 诡异 的 错误 。 
本 节 描 述 的 调用 规范 是 gec 编译 器 所 遵循 的 一 个 规范 。MIPS 的 原始 编译 器 使 用 一 个 更 为 复 
杂 的 规范 ， 而 朋 这 个 规范 会 导致 程序 执行 得 比较 快 。 
MIPS CPU 包含 32 个 通用 目的 寄存 器 ， 它 们 的 编号 是 0 ~31。 寄 存 器 $0 的 值 总 是 0。 
。 寄存 器 $at (1)、S$k0 (26) 和 $xk1 (27) 是 预 留 给 汇编 器 和 操作 系统 的 ， 不 能 被 用 户 程 
序 或 者 编译 器 使 用 。 
。 寄存 器 $a0 ~ $a3 (4 ~7) 被 用 来 传递 初始 4 个 参数 到 例 程 〈 其 他 的 参数 传递 到 堆栈 
中 ) 。 寄 存 器 $vo 以 及 $vl (2，3) 被 用 来 返回 来 自 函数 的 值 。 
。 寄存 器 $8t0o ~ $t9 (8 ~15，24，25) 是 调用 者 保存 的 寄存 器 < ， 被 用 来 保存 临时 变量 ， 
这 些 值 在 调用 的 时 候 不 需要 保存 ( 见 第 2 章 2.8 节 )。 
。 寄存 器 $s0 - $s7 (16 ~23) 被 称 为 被 调用 者 保存 的 寄存 器 ,保存 长 期 存活 值 ， 这 些 值 
应 当 在 程序 调用 时 保存 。 
。 寄存 器 8gp (28) 是 一 个 全 局 指针 ， 指 向 64K 的 静态 数据 内 存 块 。 
。 寄存 器 8sp(29) 是 堆栈 指针 ， 指 向 堆栈 的 最 后 地 址 。 寄 存 器 $tp (30) 是 数据 帧 指针 。 指 
令 jal 指令 写 寄 存 器 $ra (31) ， 是 过 程 调用 的 返回 地 址 。 这 两 个 寄存 器 将 在 下 一 节 说 明 。 
两 个 字母 的 缩写 以 及 这 些 寄存 器 的 名 字 一 一 如 $sp 代表 的 是 栈 指针 一 一 反映 了 寄存 器 在 过 程 
调用 规范 中 所 起 的 作用 。 在 描述 这 样 一 个 规范 时 ， 我 们 将 使 用 寄存 器 的 名 字 ， 而 不 是 寄存 器 的 纺 


号 。 图 B-6-1 罗列 了 这 些 寄 存 器 及 其 用 途 。 

寄存 器 名 称 使 用 规则 寄存 器 名 称 使 用 规则 
$zero | 全 为 9。 jsso | 16 | 保 让 性 时 信 (过程 调用 巴 国 ) 
$at | 1 | 为 汇编 回 保留 保存 临时 值 (过 程 调用 预 留 ) 


8v0 | 2 | 表达 式 求 值 以 及 函数 的 结果 $s2 保存 临时 值 ( 过 程 调用 预 留 ) 
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B-6-1 MIPS 寄存 器 和 使 用 规则 


名 ”寄存 器 使 用 (register use convention) ， 或 者 称 为 Procedure call convention: 管理 过 程 (调用 ) 使 用 寄存 器 的 软件 协议 。 
© 调用 者 保存 的 寄存 器 ( caller-saved register) : 调用 程序 保存 的 寄存 器 。 
© 被 调用 者 保存 的 寄存 器 ( callee-saved register) ;被 调用 者 程序 保存 的 寄存 器 。 


502. 附录 B 汇编 医 、 链 接 促 和 SPIM 仿真 器 


B. 6. 1 过程 调用 


本 节 描 述 一 个 程序 (调用 者 ，the caller) 调用 另 一段 程序 (被 调用 者 ，the callee) 的 步 又。 程 
序 员 使 用 像 C 或 者 Pascal 这 样 的 高 级 语言 编程 ， 从 来 都 看 不 到 一 个 程序 调用 另 一 个 程序 的 细节 。 因 
为 编译 器 负责 低级 的 书签 工作 。 然 而 ， 汇 编 语 言 程 序 员 必 须 明 确 地 实现 每 个 程序 调用 和 返回 。 

很 多 与 调用 相关 的 书签 操作 围绕 着 一 个 内 存 块 ， 这 个 内 存 块 被 称 为 过 程 调用 帧 ” 。 这 段 内 存 
被 用 作 以 下 目的 : 

e 保持 作为 参数 传递 给 过 程 的 数值 。 

。 保存 一 个 过 程 可 能 会 修改 的 寄存 器 ， 但 是 过 程 的 调用 者 却 不 希望 这 些 寄 存 器 的 值 被 修改 。 

e。 为 过 程 的 局 部 变量 提供 空间 。 

在 大 部 分 编程 语言 中 ， 过 程 调用 和 返回 遵循 一 个 严格 的 后 进 先 出 的 顺序 ， 所 以 在 一 个 栈 中 
内 存 能 被 分 配 以 及 被 再 次 分 配 ， 这 就 是 为 什么 这 些 内 存 块 有 时 被 称 作 堆栈 帧 。 

图 B-6-2 展示 了 一 个 典型 的 堆栈 帧 。 这 个 帧 由 以 下 部 分 组 成 : 帧 指针 〈 $tp) ， 这 个 指针 指 
向 这 个 帧 的 第 一 个 字 ; 堆栈 指针 (gs$sp) ， 指 向 帧 的 最 后 轩 和 汪 天 汪汪 高 端 内 存 地 址 
一 个 字 。 栈 从 内 存 的 高 地 址 开始 向 下 增长 ， 所 以 帧 的 指针 
指 癌 堆栈 指针 的 上 面 。 一 个 过 程 的 执行 使 用 帧 指针 来 快速 
地 访问 堆栈 帧 中 的 值 。 例 如 ， 一 个 堆栈 帧 中 的 参数 可 以 使 
用 以 下 命令 来 加 载 到 寄存 器 $v0 : 

lw $v0,0 ($fp) 

堆栈 帧 可 以 有 好 几 种 不 同 的 构建 方式 然而， 调用 者 
和 被 调用 者 必须 遵从 一 系列 步骤 。 下 面 来 描述 在 大 部 分 
MIPS 机 右上 使 用 的 调用 规范 步骤 。 这 个 规范 在 过 程 调 用 
中 的 三 个 阶段 出 现 : 

1) 传递 参数 。 根 据 规范 ， 第 一 批 的 4 个 参数 被 传递 
到 寄存 器 $a0 ~ $a3o 任何 剩余 的 参数 将 被 压 人 堆栈 中 ， 
而 且 出 现在 被 调用 过 程 的 栈 帧 的 开始 。 图 B-6-2 ”堆栈 帧 的 示意 图 

2) 保存 调用 者 寄存 器 。 被 调用 过 程 可 以 直接 使 用 这 帧 指针 ( $fp) 指向 当前 执行 过 程 的 堆栈 
些 寄 存 器 〈 $a0 ~ $a3 以 及 $to ~ $t9) ， 而 不 需要 首先 保 由 的 第 一 个 字 。 堆 栈 指针 ($sp) 指向 该 帧 
存 这 些 寄存 器 的 值 。 如 果 调 用 者 在 调用 之 后 还 想 使 用 这 些 的 最 后 一 个 字 。 最 前 面 4 个 参数 被 传递 到 寄 
寄存 器 ， 那 么 它 必 须 在 调用 之 前 保存 寄存 器 的 值 。 存 顺 中 ， 所 以 第 五 个 参数 成 为 栈 中 第 一 个 被 

3) 执行 一 个 jal 指令 ( 见 第 2 章 的 2. 8 节 ) ， 这 个 指 保存 的 参数 
令 跳 转 到 被 调用 者 的 第 一 个 指令 并 将 返回 地 址 保存 到 寄存 器 $ra 中 。 

在 一 个 被 调用 的 例 程 开始 运行 之 前 ， 必 须 经 过 以 下 几 步 来 建立 它 的 堆栈 帧 ， 

1) 为 帧 分 配 内 存 空间 ， 通 过 栈 指针 来 减 小 帧 的 大 小 。 

2) 在 帧 中 保存 被 调用 者 的 寄存 器 。 调 用 者 必须 在 修改 这 些 寄存 器 之 前 保存 这 些 寄存 器 的 什 
( $s0 ~ $87、 $fp 和 $ra)， 由 于 调用 者 期 望 发 现 这 些 寄存 器 在 调用 之 后 保持 不 变 。 寄存 器 $fp 被 


每 个 过 程 保存 ， 这 个 指针 为 过 程 分 配 一 个 新 的 堆栈 帧 。 然而 如 果 被 调用 者 调用 别 的 程序 寄存器 
-Sra 仅仅 需要 被 调用 者 保存 。 别 的 被 调用 者 保存 的 寄存 器 被 使 用 的 话 ， 也 必须 被 保存 。 


3) 设置 栈 帧 指针 ， 其 值 为 栈 帧 大 小 减 去 4 加 上 ssp， 保 存在 寄存 器 $fo 中 。 





〇 ”过 程 调用 帧 (procedure call frame) : 用 来 保存 被 调用 过 程 的 参数 ， 保存 可 能 会 被 过 程 修改 的 寄存 器 的 值 ， 但 是 这 
些 寄存 器 的 值 不 会 被 调用 者 所 修改 ， 并 为 被 调用 程序 的 局 部 变量 提供 空间 。 
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MIPS 寄存 器 使 用 规范 提供 被 调用 者 以 及 调用 者 保存 的 寄存 器 ， 因 为 这 两 种 类 型 的 寄存 器 在 
不 同 的 环境 中 各 具 优 势 。 被 调用 者 保存 的 寄存 器 最 好 用 来 保存 生存 期 长 的 值 ， 例 如 来 自用 户 程 
序 的 变量 。 如 果 被 调用 者 期 望 使 用 这 个 寄存 器 ， 这 个 寄存 跨 就 仅仅 在 过 程 调用 中 被 保存 。 另 一 方 
面 ， 调 用 考 保 存 的 寄存 器 最 好 被 用 来 保存 短期 存在 的 量 ， 这 些 值 在 过 程 调用 中 不 长 期 存在 ， 倒 如 
地 址 计算 中 的 立即 值 。 在 一 个 过 程 调 用 中 ， 被 调用 者 也 可 以 使 用 那些 保存 临时 值 的 寄存 器 。 

最 终 ， 通 过 执行 以 下 几 步 ， 被 调用 者 返回 到 调用 者 : 

1) 被 调用 者 是 一 个 具备 返回 值 的 函数 ， 就 将 返回 值 放 到 寄存 器 $v0。 

2) 恢复 所 有 被 调用 者 保存 的 寄存 器 ， 这 些 寄存 器 保存 前 一 个 过 程 的 入 口 。 

3) 向 $sp 加 上 帧 大 小 ， 将 帧 从 栈 中 弹出 。 

4) 跳 转 到 寄存 器 $ra 中 的 地 址 处 。 

精 解 ， 编程 语言 不 允许 递归 过 程 ” 一 一 一 个 过 程 通过 一 串 调 用 ， 可 以 间接 或 者 直接 地 调用 自己 一 不 
需要 在 堆栈 中 分 配 帧 。 在 一 个 非 递归 的 语言 中 ， 每 个 过 程 的 帧 可 能 被 静态 分 配 ， 因 为 在 同一 时 间 ， 仅 仅 允 
许 一 个 过 程 处 于 活动 状态 。 旧 版 本 的 fortran 禁止 递归 ， 在 一 些 比较 老 的 机 器 中 静态 分 配 帧 产生 代码 比较 快 。 
然而 ， 在 类 似 MIPS 这 样 的 存 取 体系 结构 中 ,堆栈 帧 的 速度 也 可 能 很 快 。 因 为 一 个 堆栈 指针 寄存 器 直接 指 
站 活动 堆栈 杆 ， 这 人 允许 一 个 存 取 指令 访问 这 个 帧 中 的 值 。 另 外 ， 递 归 是 一 种 很 有 价值 的 编程 技巧 。 


B. 6. 2 过 程 调用 举例 
作为 一 个 例子 ， 考 虑 以 下 C 程序 : 


main () 
{ 
printf ("the factorial of 10 is % d\n” ,fact (10)); 
} 
lnt fact {int n) 
{ 








lf (n<1) 
return (1};} 
else 
return (nx fact (n ~1));: 


} 

这 个 沙 数 计算 而 且 打 印 10! (10 的 阶 冬 ，10! =10 x9 x:… x1)。fact 是 一 个 递归 例 程 ， 计 
算 2!1， 通 过 对 乘 以 Cn -1)1。 这 段 代码 对 应 的 汇编 代码 说 明 程序 如 何 管理 堆栈 帧 。 

在 人 口上 ， 例 程 main 创建 一 个 堆栈 帧 ， 而 且 保存 被 调用 者 将 会 修改 的 两 个 寄存 器 ， $tp 和 # 
rao 一 个 帧 的 大 小 比 两 个 寄存 器 大 ， 因 为 调用 程序 所 需要 的 一 个 堆栈 帧 的 最 小 大 小 是 24 字 节 。 
最 小 的 帧 可 以 容纳 4 个 寄存 器 参数 ( $ao ~ $a3) 以 及 sra 的 返回 地 址 ， 再 加 上 一 个 双 字 边界 
一 共 24 字 节 )。 由 于 main 函数 也 需要 保存 $fp， 它 的 堆栈 帧 必须 是 两 个 字 大 小 ( 记 住 ， 堆栈 指 
针 保 持 双 字 对 齐 )。 : 

.text 

.qlobl main 

subu $sp, $sp,32 # 栈 的 幢 大 小 是 32 字 节 
Sw $ra,20 ($sp) # 保存 返回 地 址 

Sw $fp,16 ($sp) # 保存 旧 的 栈 帧 指针 
addiu $fp, $sp,28 # 创建 栈 指针 


main 程序 然后 调用 阶乘 例 程 而 且 将 它 的 唯一 参数 10 传 给 阶乘 函数 。 在 fact 函数 返回 
main 调用 printf， 而且 给 printf 传递 一 个 格式 化 字符 串 ， 以 及 从 fact 返回 的 结果 两 个 参数 


© 递归 过 程 (recursive procedure) : 就 是 指 某 个 过 程 能 通过 调用 链 直 接 或 间接 地 调用 自己 。 
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1i $a0,10 # 将 参数 (10) 放 到 地 址 $a0 

jal fact # 调用 阶乘 函数 

la $a0, $LC # 将 格式 化 串 保存 到 地 址 $a0 处 

move $al, $v0 # 将 fact 函数 计算 的 阶乘 结果 保存 到 地 址 $al 

jal printft # 调用 打印 函数 

最 终 ， 在 打印 出 阶乘 结果 后 ，main 返回 。 但 是 首先 ， 它 必须 恢复 以 下 这 些 寄存 器 的 值 ， 将 


它们 从 栈 中 弹出 : 
lw $ra,20 ($sp) # 保存 返回 地 址 
lw $fp,16 ($sp) # 保存 帧 指针 
addiu $sp, $sp,32 # 弹出 堆栈 帧 
jr $ra # 返回 到 调用 者 
.rdata 
$LC. 
.ascii “The factorial of 10 isgawmwWwO00” 


阶 习 函 数 的 结构 和 main 函数 很 相似 。 首 先 ， 阶 乘 函 数 创 建 一 个 堆栈 帧 ， 把 它 可 能 会 使 用 的 
被 调用 者 寄存 器 保存 起 来 。 另外 ， 还 保存 $ra 以 及 $fp, fact 五 数 也 保存 它 的 参数 ( $a0 ) ， 这 个 
参数 在 递归 调用 的 时 候 会 被 使 用 . 


-text 
fact: 
subu $sp, $sp,32 持 栈 的 帧 大 小 是 32 字 节 
Sw $ra,20 ($sp) 持 保 存 返 回 地 址 
sw $fp,16 ($sp)  # 保 存 帧 指针 
addiu $fp, $sp,28 # 创建 帧 指针 
Sw $a0,0 ($fEp) # 保存 参数 (n) 


fact 例 程 的 核心 执行 C 程序 计算 。 这 个 函数 测试 它 的 参数 是 否 比 0 大 。 如 果 不 是 ， 例 程 返回 
值 1。 如 果 参 数 比 0 大 ， 例 程 递归 地 调用 它 自 己 ， 计 算 fact(n -1) 而 且 乘 以 mn， 


1w $v0 ,0 ($fp) # 加 载 n 
bgtz $vO, $12 # 分 支 , 如 果 n >0 
1 $v0 ,1 # 返 回 1 
jr $L1 # 跳 转 到 返回 的 代码 处 
$L2 : 
1w $v1 ,0 ($fp) # 加 载 n 
subu $vO, $v1,1 # 计 算 n -1 
move $a0, $v0 # 将 值 保存 到 $a0 (地 址 a0) 
jal fact # 调用 阶 飞 消 数 
1w $v1 ,0 ($fp) _# 如 载 n 


mul $vO, $v0, $vl # 计 算 阶 匀 fact(n -1)*n 
最 后 ， 阶 乘 函 数 恢复 被 调用 者 保存 的 那些 寄存 器 而 且 返 栈 


回 寄存 器 $vo 中 的 值 : 
Old $fp|jmain 


$L1: # 结果 保存 到 $v0 g 

lw $ra,20 ($sp) # 恢 复 $ra 中 的 值 -| Old $ao0 
lw $fp,16($sp) # 保 存 $fp 中 的 值 BE 

Old $a0 
Old $ra| fact(9) 
Old $ad0 
Old $ral fact (8) 
个 调用 ， 递 归 调用 fact 函数 来 计算 更 低 一 级 的 阶乘 。 栈 帧 和 这 些 


addiu $sp, $sp,32  # 弹 出 栈 
jr $ra # 返回 到 调用 者 
Old $a0 
gact 07) 
函数 的 调用 按照 LIFO 的 顺序 并 行 着 。 当 fact(10) 返 回 的 时 候 栈 【Cla $fp 
看 起 来 是 什么 样子 ? 图 B-6-3 调用 fact(7) 过 程 中 的 栈 帧 












递归 过 程 中 的 栈 
图 B-6-3 展示 了 fact(7) 的 调用 栈 。main 最 先 运行 ， 所 以 它 


的 辆 在 模 的 最 深 处 。main 调用 了 fact(10)， 它 们 的 栈 帧 挨 着 。 每 
栈 向 下 增长 
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栈 向 下 增长 





楼 
old g$ra| i, 
old $fp 


精 解 : MIPS 编译 器 和 gce 编译 器 之 间 的 差异 是 ，MIPS 编译 器 通常 不 需要 帧 指针 ， 所 以 这 个 寄存 器 可 作 
为 另 一 个 被 调用 者 保存 寄存 器 ，$s8 ， 使 用 。 这 种 改变 节省 了 过 程 调用 和 序列 返回 的 一 对 指令 。 然 而 ， 这 
使 得 代码 产生 变 得 复杂 ， 因 为 一 个 过 程 必须 使 用 $sp 来 访问 栈 帧 ， 如 果 有 数值 被 压 到 栈 中 ， 它 的 值 可 以 在 
一 个 过 程 执行 中 变化 。 


B. 6. 3 另外 一 个 过 程 调用 的 例子 


作为 另 一 个 例子 ， 考 虑 下 面 的 程序 ， 它 计算 tax 函数 ， 这 是 一 个 被 广泛 使 用 的 基准 测试 程 
序 ， 由 人 kuo Takeuchi 创建 。 这 个 函数 不 计算 任何 有 用 的 东西 ， 但 这 个 函数 是 深度 的 递归 程序 ， 
用 它 可 以 说 明 MIPS 调用 的 规范 。 
int tak(int x,int y,int z) 
{ 
lf(y<x) 
return 1 ttak (tak (x-l,y,z), 
tak(y-1,2z,x), 
tak(z -1,x,y)); 
else 
return 2z; 
} 
int main1f) 
{ 
tak(18,12,6); 
} 


这 段 程序 的 汇编 代码 将 在 下 面 展示 。tak 函数 首先 保存 它 的 返回 地 址 到 堆栈 帧 中 ， 而 且 将 它 


的 参数 保存 被 调用 保存 的 寄存 器 中 ， 由 于 例 程 或 许 会 调用 那些 需要 使 用 寄存 器 $8a0 ~ $a2 以 及 4 
ra 的 例 程 。 函 数 使 用 被 调用 者 保存 的 寄存 器 ， 由 于 它们 在 函数 的 整个 生命 期 中 保持 有 效 ， 这 期 


间 包 含 几 个 可 能 会 修改 寄存 器 值 的 函数 调用 。 


.text 
.globl tak 
tak:;: 
subu $sp, $sp,40 
Sw $ra,32 ($sp) 
sw $50,16 ($sp) # x 
move $s0, $a0 
Sw $s1,20 ($sp) #4Yy 
move $s1, $al 
sw $s2,24 ( $sp) # 二 
move $s2, $a2 
Sw $s3,28 ($sp) # 临时 


通过 测试 ， 如 果 y < x， 例 程 开 始 执 行 。 否则， 分 支 转 到 标签 11 处 ， 如 下 所 示 。 

bge $s1, $50,L1 # 如 果 (y<x) 

如 果 y <x， 那 它 就 执行 例 程 的 主体 ， 主 体 包含 了 4 个 递归 的 调用 。 第 一 个 调用 使 用 几乎 和 
它 的 母体 相同 的 参数 : 

addiu $a0, $s0, -1 


move $al, $s1 
move $a2, $s2 
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Jal tak # tak (XxX-1,y,2z) 
move $s3, $vo 


注意 到 ， 第 一 个 递归 调用 的 结果 被 保存 到 寄存 器 $s3 ， 这 样 便于 不 久 后 使 用 。 
函数 现在 为 第 二 个 递归 调用 做 准备 。 


addiu $a0, $sl, -1 


move $al, $s2 
move $a2, $s0 
jal tak #tak(y—1,z,x) 


在 下 面 的 指令 中 ,来 自 递归 调用 的 结果 被 保存 到 寄存 器 $s0。 但 是 首先 ， 也 是 最 后 一 次 ， 我 


们 需要 读 这 个 寄存 器 的 值 ， 其 中 保存 第 一 个 参数 的 值 。 


了 


addiu $a0, $s2, -1 


move $al, $s0 

move $a2, $sl 

moOve $s0, $v0 

jal tak #tak (z-1,x,y) 

在 三 个 内 部 递归 调用 之 后 ， 我 们 准备 最 后 的 递归 调用 。 调 用 之 后 ， 函 数 的 结果 保存 到 $vo 
控制 聘 数 流程 的 跳 转 。 

move $a0, $s3 

move $al, $s0 

move $a2, $vo 

jal tak #tak (tak (**…),tak(") ,takt{)) 
addinu $v0 ，$v0 ,1 

3 L2 


标签 1 处 的 代码 是 一 个 于 then-else 语句 序列 。 它 仅仅 将 参数 z 的 值 传递 到 返回 寄存 器 而 落 


和信 到 水 数 格局 中 [ (function epilogue ( 跋 ， 后 记 ) ] 。 


L1 : 
move $vD, $s2 


以 下 的 代码 是 函数 末尾 ， 它 恢复 被 保存 的 寄存 器 而 且 将 函数 值 返 回 给 它 的 调用 者 。 


L2: 

lw $ra,32 ($sp) 
lw $50,16 ($sp) 
lw $s1,20( $sp) 
1w $s2,24 ($sp) 
iw $s3,28 ($sp) 
addiu $sp, $sp,40 
jr $ra 


main 函数 使 用 最 初 的 参数 来 调用 tak 函数 ， 然 后 得 到 计算 结果 result (7) 而 且 使 用 SPIM 系 


统 调用 来 打印 整数 的 值 。 

.globl main 
main: 

Subu $sp, $sp,24 
Sw $ra,16 ($sp) 
1i $a0 ,18 
1i $al,12 
1i $a2,6 
jal tak # tak (18,12,6) 
move $a0, $vO 
1i $vO,1 # print int syscall 
syscall 
lw $ra,16 ($sp) 
addiu $sp, $sp,24 


jr $ra 
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B. 7 ”异常 和 中 断 

第 4 章 的 4.9 节 描 述 了 MIPS 异常 机 制 ， 包 括 指 令 执行 中 发 出 错误 导致 的 异常 以 及 IO 设备 
引起 的 外 部 中 断 。 本 节 描 述 异 常 以 及 中 断 处 理 ? 的 更 多 ”细节 。 在 MIPS 处 理 器 中 ，CPU 中 一 个 被 
称 为 coprocessor 0 的 部 分 记录 软件 处 理 异 常 和 中 断 所 需要 的 信息 。MJPS 仿真 器 SPIM 没有 实现 
coprocessor 0 的 寄存 器 ， 因 为 在 一 个 仿真 器 中 ， 不 需要 很 多 寄存 器 ， 或 者 寄存 器 不 是 内 存 系统 的 
一 个 部 分 ，SPIM 就 没有 实现 它 。 然 而 ，SPIM 确实 提供 了 下 列 coprocessor 0 的 寄存 器 ; 


寄存 器 名 称 寄存 器 编号 使 用 


BadVAddr 在 一 个 会 发 生 内 存 引用 冲突 的 内 存 地 址 
计时 器 
Compare 一 个 用 来 和 计时 器 进行 比较 ， 当 它 的 值 和 计时 器 匹配 时 ， 会 发 生 中 斯 


Status Da | 中 断 掩 码 以 及 使 能 位 


Count 


Cause 


11 
12 
13 异常 类 型 以 及 中 断 挂 起 位 
EPC 14 引起 异常 的 指令 地 址 


Config 16 | 机 器 的 配置 


这 7 个 寄存 器 是 coprocessor 0 处 理 器 的 寄存 器 组 的 一 部 分 。 它 们 通过 mfco 以 及 mtco 指令 来 访问 。 
异常 之 后 ， 寄 存 器 EPC 包含 了 在 执行 时 发 生 异 常 的 那 条 指令 的 地 址 。 如 果 异 常 是 外 部 中 断 引 起 的 ， 那 
人 么 指令 将 不 需要 重新 开始 执行 。 除 了 导致 问题 的 指令 处 于 分 支 或 跳 转 指令 的 延迟 槽 中 之 外 ， 所 有 其 他 
的 弄 常 均 由 执行 EPC 处 的 指令 引起 。 在 那 种 情况 下 ，EPC 指向 分 支 或 者 跳 转 指令 而 且 原 因 寄 存 器 中 的 
BD 位 被 设置 。 当 这 些 位 设置 好 后 ， 异 常 处 理 函数 必须 查看 引起 异常 的 EPC +4。 然 而 ， 在 别 的 情况 下 ， 
异常 处 理 哆 数 通 过 返回 到 指令 的 EPC 地 址 处 恢复 被 中 断 的 程序 。 

如 采 指 令 所 引起 的 异常 导致 一 个 内 存 访 问 ， 寄 存 器 BadVAddr 包含 被 引用 的 内 存 地 址 的 地 址 。 

Count 寄存 器 是 一 个 计数 器 ， 当 SPIM 运行 时 ， 它 按照 一 定 的 频率 递增 (默认 ， 每 10 毫秒 一 
次 ) 。 当 Count 寄存 器 中 的 值 和 比较 寄存 器 中 的 值 匹 配 时 ， 处 于 5 级 的 硬件 中 断 就 会 发 生 。 

图 B-7-1 展示 了 MIPS 仿真 器 SPIM 实现 的 状态 寄存 器 域 。 中 断 掩 码 域 为 6 个 硬件 包含 了 6 个 位 和 2 
个 软件 中 断层 次 。 如 果 掩 码 位 的 值 是 1， 就 是 允许 处 理 器 这 个 级 别 上 的 中 断 ， 如 果 掩 码 位 的 值 是 0， 就 
是 不 允许 处 理 器 这 个 级 别 上 的 中 断 。 当 中 断 到 达 时 ， 中 断 在 其 原因 寄存 器 中 设置 中 断 挂 起 位 ， 即 使 掩 
码 位 是 无 效 的 。 当 一 个 中 断 被 挂 起 时 ， 当 随后 其 掩 码 位 被 允许 时 ， 它 会 中 断 处 理 器 . 


尿 共 
并 器 肥 
忒 如 存 
下 小 傈 
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图 B-7-1 状态 寄存 器 
当 处 理 器 运行 在 核心 模式 ， 用 户 模式 位 是 0; 如 果 用 户 模式 位 是 1， 则 说 明 处 理 器 处 于 用 户 
态 。 对 于 SPIM， 这 一 位 固定 是 1， 因 为 SPIM 处 理 器 没有 实现 核心 模式 。 异 常 级 别 位 通常 是 0， 


昌 “中断 处 理 ( interrupt handler) : 一 段 代码 ， 作为 异常 或 者 中 斯 的 执行 结果 。 

后 ”本 节 讨 论 MIPS-32 体系 结构 中 的 异常 ， 这 些 异 常 是 SPIM 的 7.0 及 以 后 的 版 本 所 实现 的 。SPIM 的 早期 版 本 实现 了 
MIPS-1 体系 结构 ， 但 是 其 中 对 异常 的 处 理 有 些 不 同 。 将 这 些 不 同 版 本 的 程序 转变 成 在 MIPS-32 上 运行 不 是 一 件 
图 难 的 事情 ， 因 为 只 有 状态 和 原因 寄存 器 的 域 需要 改变 ， 使 用 rfe 指令 替换 eret 指令 。 
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但 是 当 异 常 发 生 时 就 被 设置 成 1。 当 这 一 位 是 1 时 ， 中 断 被 禁止 ， 而 且 如 果 另 一 个 异 名 发 生 EPC 
也 不 会 被 更 新 。 这 一 位 阻止 一 个 异常 处 理 被 别 的 中 断 或 者 异常 打 断 ， 但 是 它 应 当 在 异常 处 理 结 
束 时 可 以 复位 。 如 果 interrupt enable 位 是 1， 中 断 就 被 允许 。 如 果 这 一 位 是 0， 它 们 就 被 禁止。 

B-7-2 展示 了 SPIM 中 的 原因 寄存 器 字段 的 子 集 。 如 果 最 后 一 个 异常 发 生 时 ， 一 个 正在 执 
行 的 指令 处 于 分 支 延迟 槽 中 ， 分 支 延 迟 位 则 为 1。 当 一 个 中 断 处 于 给 定 的 硬件 或 者 软件 层 时 ， 中 
断 挂 起 位 变 成 1。 异 常 代码 寄存 器 通过 以 下 代码 描述 了 一 个 异常 的 原因 : 


31 LS 8 6 





分 支 延 时 挂 起 中 断 异 第 编码 
B-7-2 原因 寄存 帮 


编号 异常 产生 的 原因 
0 nt 中 断 (硬件 ) 
4 地 址 错误 异常 【加载 或 者 取 指 令 ) 
5 地 址 错误 异常 (存储 ) 
6 BE | 取 指令 的 总 线 错误 
7 ”DBE 加 载 数据 或 者 存储 数据 的 总 线 错误 
8 系统 调用 异常 
9 Bp 断 点 异常 
10 RR | 保留 指令 异常 
11 没有 实现 的 协 处 理 器 
12 0 | 算术 上 滋 异 党 
13 陷阱 
15 PE | 浮 点 


异常 和 中 断 导 致 MIPS 处 理 器 跳 转 到 一 段 代 码 ， 地 址 是 80000180,。 (在 核心 态 ， 而 不 是 在 用 
户 的 地 址 空间 ) ， 被 称 作 异常 处 理 代码 。 这 个 代码 检查 异常 的 原因 ， 而 且 跳 转 到 操作 系统 的 一 个 
合适 的 感 。 操 作 系 统 对 一 个 异常 会 做 出 以 下 的 响应 : 结束 一 个 引起 异常 的 进程 或 者 执行 一 些 动 
作 。 进 程 所 引起 的 错误 ,例如 执行 一 个 没有 被 实现 的 指令 ， 就 会 被 操作 系统 终止 。 另 一 方面 ， 别 
的 异常 ， 例 如 送 给 操作 系统 的 来 自 进程 的 缺 页 错误 就 是 要 执行 一 个 服务 ， 即 从 磁盘 取 回 一 个 页 。 
操作 系统 处 理 这 些 请 求 ， 然 后 恢复 这 个 发 出 请 求 的 进程 。 最 后 一 种 类 型 的 异常 是 外 部 设备 发 出 
的 中 断 。 这 些 通常 会 导致 操作 系统 将 数据 搬运 到 IO， 或 者 从 IO 把 数据 搬运 回来 ， 然 后 恢复 被 
中 断 的 进程 。 

下 面 例子 中 的 代码 是 一 个 简单 异常 处 理 程序 (handler) ， 它 启动 一 个 为 每 个 异常 打印 消息 的 
程序 〈 但 不 是 中 断 ) 。 这 个 代码 与 SPIM 仿真 器 使 用 的 异常 处 理 (exceptions. s) 相似 。 
异常 处 理 

异常 处 理 程序 首先 保存 寄存 器 $at， 这 个 符号 在 处 理 程序 代码 的 伪 代 码 中 被 使 用 ， 然 后 保存 
$a0 和 8$al， 这 两 个 值 之 后 将 被 用 来 传递 参数 。 异 常 处 理 程序 不 能 在 堆栈 中 保存 这 些 寄存 器 的 昌 
值 ， 作 为 一 个 一 般 的 程序 ， 因 为 异常 产生 的 原因 可 能 是 一 个 内 存 引 用 在 堆栈 指针 中 使 用 了 一 个 
坏 的 值 (如 0)。 相 友 ， 异常 处 理 程序 在 一 个 异常 处 理 寄 存 器 ( 8k1， 因 为 不 使 用 8at， 它 不 能 访 
问 内 存 ) 以 及 两 个 内 存 地 址 ( save0 和 savel ) 中 保存 这 些 寄存 器 的 值 。 如 果 异 常 处 理 程序 本 身 
可 以 被 中 断 ， 两 个 地 址 可 能 不 充分 ， 因 为 第 二 个 异常 可 能 会 改写 这 些 第 一 个 异常 保存 的 值 。 然 
而 ， 在 允许 中 断 之 前 ， 这 个 简单 的 异常 处 理 程序 结束 运行 ， 所 以 这 些 问 题 不 会 出 现 。 

.ktext Ox80000180 


mov $k1, $at # 保 存 $at 寄存 器 
sw $a0, save0 # 程 序 不 是 ,不 能 用 
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sw $al, savel # 堆 栈 来 保存 $a0，, $al 
# 不 需要 保存 $k0/ $kl 


异常 处 理 程序 然后 将 原因 寄存 器 和 EPC 寄存 器 保存 到 CPU 的 寄存 器 中 。 原 因 寄 存 器 和 和 EPC 寄 
存 器 不 是 CPU 寄存 器 组 的 一 个 部 分 。 相 反 ， 它 们 是 协 处 理 医 0 的 寄存 器 ， 协 处 理 帘 是 CPU 处 理 异 
常 的 一 个 部 分 。 指 令 mfc0 $k0, $13 将 协 处 理 器 0 的 寄存 器 13 (原因 寄存 器 ) 保存 到 CPU 的 寄存 器 
$xk0。 注 意 到 异常 处 理 不 需要 保存 这 些 寄存 器 S$xko 和 $kl， 因 为 用 户 程序 不 被 认为 会 使 用 这 些 寄存 
瞻 。 异 常 处 理 程 序 使 用 来 自愿 因 寄 存 器 的 值 来 测试 蜡 常 是 否 被 一 个 中 断 所 绚 起 〔〈 参 见 前 面 的 表 )。 
如 果 是 这 样 的 话 ， 异常 就 会 被 忽略 。 如 果 蜡 常 不 是 中 断 ， 程序 就 会 调用 print excp 来 打印 一 条 信息 。 
mfcO $k0, $13 ” 上 杏 原 因 寄 存 器 中 的 值 传 递 到 $k0 


srl $a0, $k0,2 # 提 取 ExcCode 域 
anqdi $a0, $a0,0xf 
bgtz $a0, done # 分 支 , 如 果 Exccode 是 Int (0) 


mov $a0, $k0 # 尾 原因 寄存 器 中 的 值 传递 到 $a0 
mfc0 $al, $14 # 尾 EPC 寄存 器 中 的 值 传递 到 $al 
jal print excp 持 T 印 异常 错误 信息 


在 运行 之 前 ， 异 常 处 理 程序 清除 原因 寄存 器 ; 重 设 状态 寄存 器 ， 目 的 是 为 了 使 得 中 断 人 允许。 而 且 
清除 EXL 位 ， 这 使 得 后 续 的 异常 来 修改 EPC 寄存 器 ; 而 且 恢 复 寄 存 器 $ao、sal 和 $at。 然 后 执行 eret 
指令 〈 有 异常 返回 ) ， 这 个 指令 返回 EPC 所 指向 的 指令 。 这 个 异常 处 理 程序 返回 到 引起 异常 的 指令 的 后 
面 的 那 条 指令 。 所 以 不 会 重新 执行 那 条 错误 的 指令 ， 而 且 不 会 再 次 引起 异常 。 


done: mtc0 $k0 ，$14 # 人 保存 EPC 
addiu $k0, $k0,4 # 错 误 ` 有 问题 的 指令 不 需要 重新 执行 
mtco $k0, $14 柜 PC 
mtco $0, $13 # 清 除 原因 寄存 器 
mtc0 $k0, $12 # 轿 定 状 态 寄存 大 
andi $k0 ,0xEffdi # 清 除 EXL 位 
ori $k0 ,Oxl # 中 斯 允许 


mt 上 co $kO, $12 
lw $a0, save0 近 复 寄存 器 
lw $al,savel 
MOV $at, $kl1 
eret # 芭 回 到 EPC 
. kAata 

Saven : .WOrLd 0 

Savel: .WOIrd 0 


精 解 : 在 一 个 实际 的 MIPS 处 理 器 中 ， 从 异常 处 理 程序 返回 的 过 程 相当 复杂 。 异常 处 理 程序 不 能 经 常 
跳 苇 到 EPc 的 下 一 条 指令 。 例 如 ， 如 果 引 起 异常 的 指令 处 于 分 支 指令 的 延迟 槽 中 〈 见 第 4 章 ) ， 下 一 条 被 
执行 的 指令 可 能 就 不 是 内 存 中 的 下 一 条 指令 。 


B. 8 输入 和 输出 

SPIM 念 真一 个 VO 设备 : 一 个 内 存 映射 的 控制 台 (console) ， 在 这 个 控制 台 中 可 以 读 和 写字 
符 。 当 一 个 程序 正在 运行 时 ，SPIM 将 其 终端 (一 个 独立 的 控制 台 窗 口 ， 是 X- window 版 本 
的 xspim 或 者 windows 版 本 的 pcspim) 连接 到 处 理 器 上 。 运行 在 SPIM 上 的 一 个 MIPS 程序 可 以 读 
取 你 键入 的 字符 。 另 外 ， 如 果 MIPS 程序 可 以 在 终端 写字 符 ， 字 符 将 出 现在 SPIM 的 终端 或 者 控 
制 台 窗口 。 这 个 规则 的 一 个 蜡 常 是 control- C; 这 个 字符 没有 被 传递 到 程序 中 ， 但 是 导致 SPIM 停 
止 ， 而 且 返 回 到 命令 行 模式 。 当 程序 停止 运行 (一 个 例子 ， 因 为 你 键入 controlC ， 或 者 因为 程序 
站 到 一 个 断 点 ) 时 ， 终 端 被 重新 连接 到 SPIM， 这 样 你 就 可 以 键入 SPIM 的 指令 了 。 

为 了 使 用 内 存 映 射 的 IO ( 见 下 面 )，spinm 或 者 xspim 必须 使 用 -mappea io 标志 (flag) 来 启 
动 。Pcspim 通过 一 个 命令 行 标志 可 以 允许 内 存 映 射 的 I/O。 或 者 通过 “设置 ”对 话 框 来 实现 。 

终端 设备 由 两 个 独立 的 单元 组 成 : 一 个 “接收 者 ”和 -一个 “发 送 者 ” 。 接 收 者 读 来 自 键盘 的 字 
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符 。 发 射 者 在 终端 (控制 台 ) 显示 字符 。 两 个 单元 完全 独立 。 这 意味 着 ,例如 ， 从 键盘 键入 的 字符 
不 能 自动 重复 显示 。 相 反 ， 一 个 程序 通过 从 接收 者 那里 读 一 个 字符 ， 而 且 将 其 写 到 发 送 者 那里 。 
”一 个 程序 控制 着 一 个 具有 4 个 内 存 映 射 的 设备 寄存 器 的 终端 ， 如 图 B-8-1 所 示 。“ 内 存 映射 ”意味 
着 每 个 寄存 器 作为 一 个 特殊 的 内 存 地 址 。 一 个 接收 者 控制 寄存 器 是 在 地 址 ffD000s ， 实 际 仅 用 到 它 的 
两 个 位 。 位 0 被 称 作 “ready” (预备 ) : 如 果 它 是 1， 这 意味 着 一 个 字符 从 键盘 到 达 ， 但 是 还 没有 从 数 
据 接收 器 的 寄存 器 中 读 出 。ready 位 是 只 读 的 : 对 它 的 写 操作 会 被 忽略 。 当 字符 从 键盘 键入 时 ，ready 
位 从 0 转换 到 1， 而 且 当 字符 从 接收 器 数据 寄存 器 读 取 时 ，ready 位 从 1 转换 到 0。 

未 用 | 1 


接收 者 控制 
(0Oxffff0000 ， 





接收 的 数据 
COxfH0004 ) 





未 用 ] ] 





本 


中 断 允 许 





发 射 者 数据 
(0xffff000c ) 





发 送 类 型 


图 B-8-1 终端 被 4 个 设备 寄存 器 控制 着 ， 每 个 寄存 器 在 给 定 地 址 作为 一 个 内 存 地 址 
仅仅 这 些 寄存 器 的 一 些 位 实际 上 被 使 用 。 别 的 位 通常 被 读 成 0， 对 它们 的 写 被 忽略 。 

接收 顷 的 控制 寄存 器 的 第 1 位 是 键盘 “中 断 允 许 位 ”。 这 个 位 可 以 被 程序 读 ， 也 可 以 被 写 。 
中 新 允许 位 初始 为 0。 如 果 它 被 程序 设置 成 1， 无 论 何 时 字符 被 键入 ， 终 端 在 硬件 级 1 请 求 一 个 
中 断 。 然 而 ， 中 断 影响 到 处 理 器 ， 中 断 必 须 在 状态 寄存 器 中 设置 成 允许 〈 见 第 B.7 节 ) 。 接 收 器 
的 控制 寄存 器 别 的 位 都 没有 被 使 用 。 

第 二 个 终端 设备 寄存 器 是 接收 器 数据 寄存 器 (在 地 址 fftf0004,。) 。 这 个 寄存 器 的 低 8 位 包含 
着 从 键盘 键入 的 最 后 字符 ， 别 的 位 都 是 0。 这 个 寄存 器 是 只 读 而 且 仅 当 一 个 新 的 字符 从 键盘 被 键 
人 时 才 改 变 。 读 取 接 收 器 数据 寄存 器 导致 接收 器 控制 寄存 器 的 ready 位 复位 成 0。 如 果 接 收 器 控 
制 寄存 器 是 0， 这 个 寄存 器 中 的 值 没 有 被 定义 。 

第 三 个 终端 设备 寄存 器 是 发 送 者 控制 寄存 器 (在 地 址 ff0008,。) 。 当 这 个 寄存 器 只 有 低 两 位 
御 使 用 。 它 们 的 行为 和 接收 器 控制 寄存 器 很 相似 。 第 0 位 被 称 作 “ready”， 而 且 是 只 读 的 。 如 果 
这 个 位 是 1， 发 送 者 准备 为 输出 接受 一 个 新 的 字符 ; 如 果 是 0， 发 送 者 将 仍然 忙于 写 前 一 个 字符 。 
第 1 位 是 “终端 允许 位 ” ， 而 且 是 可 读 可 写 的 。 如 果 这 个 位 被 设置 成 1， 终端 在 硬件 0 级 请 求 一 
个 一 个 中 断 ， 无 论 发 送 者 是 否 准备 好 一 个 新 的 字符 ， 而 且 ready 位 变 成 1。 

最 后 一 个 设备 寄存 器 是 发 送 者 数据 寄存 器 〈 在 地 址 ffff000c,, ) 。 当 一 个 值 被 写 人 到 这 个 地 址 
处 时 ,， 它 的 低 8 位 (例如 ,第 2 章 的 图 2-15 中 的 一 个 ASCII 字符 ) 被 发 送 到 控制 台 。 当 发 送 者 
数据 寄存 器 被 写 时 ， 发 送 者 控制 寄存 器 的 ready 位 被 设置 成 0。 这 个 位 保持 为 0， 直 到 字符 发 送 到 
终端 花费 了 足够 的 时 间 ; 然后 ready 位 又 一 次 变 成 1。 发送 者 数据 寄存 器 应 当 仅仅 当 发 送 者 控制 
寄存 器 的 ready 位 是 1 的 时 候 可 以 被 写 人 。 如 果 发 送 者 没有 准备 好 ， 写 人 到 发 送 者 数据 寄存 器 的 
数据 会 被 忽略 〈 写 人 会 成 功 ， 但 是 字符 没有 输出 ) 。 
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实际 的 计算 机 需要 时 间 来 将 字符 发 送 到 控制 台 或 者 终端 。 这 些 时 间 延 迟 会 被 SPIM 仿真 器 模 
拟 。 例 如 ， 在 发 送 者 开始 写 一 个 字符 之 后 ， 发 送 者 的 ready 位 之 后 不 久 就 变 成 0。SPIM 按照 指令 
的 执行 来 测量 时 间 ， 而 不 是 按照 实际 的 时 间 。 这 就 意味 着 发 送 者 不 会 变 成 ready， 直 到 处 理 器 执 
” 行 一 个 固定 数量 的 指令 。 如 果 你 停止 机 器 ， 而 且 查 看 其 ready 位 ， 它 是 不 会 改变 的 。 然 而 ， 如 果 
你 让 机 顺 运 行 ， 这 个 位 最 终 会 变 成 1。 

B.9 SPIM z 

SPIM 是 一 个 软件 仿真 器 ， 它 运行 为 处 理 器 编写 的 汇编 语言 程序 ， 实 现 MIPS-32 体系 结构 ， 
尤其 体系 结构 的 版 本 1 具备 固定 的 内 存 上 映射 ， 没 有 cache， 而 且 仅 仅 有 协 处 理 器 0 和 协 处 理 器 
1” 。SPIM 的 名 字 恰 恰 是 MIPS 的 倒 写 拼 法 。SPIM 可 以 读 而 且 可 以 立即 执行 汇编 语言 文件 。 

SPIM 是 一 个 自 含 的 系统 ， 用 于 运行 MIPS 程序 。 它 包含 一 个 调试 器 ， 并 提供 一 些 类 似 操作 系 
统 的 服务 。SPIM 比 实际 的 计算 机 要 慢 得 多 (100 倍 或 更 多 ) 。 然 而 ， 它 代价 小 ， 可 用 性 广泛 ， 是 
真实 硬件 所 无 法 比拟 的 。 

一 个 明显 的 问题 是 , “为 什么 在 人 们 拥有 PC， 且 其 使 用 的 处 理 器 比 SPIM 运行 的 快 得 多 时 ， 却 还 
使 用 仿真 器 ?” 原 因 之 一 是 这 些 PC 中 的 处 理 器 是 Intel 的 80x86， 它 们 的 结构 不 太 规则 ， 而 且 复 杂 ， 难 
以 理解 ， 比 MIPS 处 理 器 编程 困难 。MIPS 结构 可 能 是 一 个 简单 ， 整 洁 的 RISC 机 器 的 缩影 。 

男 外 ,仿真 器 能 够 为 汇编 编程 提供 一 个 比 实际 机 器 的 更 好 的 环境 ， 因 为 它们 能 检测 出 更 多 
的 错误 ， 提 供 一 个 比 实际 计算 机 更 好 的 接口 。 

最 后 ,仿真 器 是 研究 计算 机 和 在 其 上 运行 的 程序 的 有 用 工具 。 因 为 它们 是 以 软件 方式 实现 
的 ， 而 不 是 硅 。 所 以 对 于 添加 新 指令 ， 构 建 像 多 处 理 器 这 样 的 新 系统 ， 或 者 收集 数据 这 样 的 事 
情 ， 使 用 仿真 器 容易 验证 也 容易 修改 。 

虚拟 机 的 仿真 : 

由 于 延迟 分 支 ， 延 迟 加 载 ， 受 限制 的 地 址 模式 等 原因 ， 基 本 的 MIPS 体系 结构 很 难 直 接 纺 
程 。 这 个 困难 是 可 忍受 的 ， 因 为 这 些 计 算 机 被 设计 用 来 使 用 高 级 语言 编程 ， 所 以 是 给 编译 器 ， 而 
不 是 给 汇编 语言 提供 接口 。 编 程 复杂 度 的 很 大 一 部 分 是 由 延迟 指令 导致 的 。 一 个 延迟 的 分 支 需 
要 两 个 周期 来 执行 〈 见 第 4 章 的 4.5 节 和 4.8 节 )。 在 第 二 个 周期 ， 执 行 那 条 紧 跟 分 支 指 令 的 指 
令 。 这 条 指令 能 执行 有 用 的 工作 ， 而 正常 情况 下 该 工作 可 能 在 分 支 指令 之 前 已 经 完成 。 它 可 能 是 
没有 任何 操作 的 nop 指令 。 同 样 ， 延迟 加 载 需 要 两 个 周期 来 将 一 个 值 从 内 存 中 取 回 ， 所 以 紧 跟 
其 后 的 指令 无 法 使 用 这 个 值 ( 兄 第 4 章 的 第 4.2 节 ) 。 

MIPS 一 般 通过 汇编 语言 实现 的 处 拟 机 2 隐藏 复杂 度 。 虚 拟 机 没有 延迟 的 分 支 、 加载， 而 且 
有 具有 上 比 实际 硬件 更 丰富 的 指令 集 。 汇 编 器 将 这 些 指令 重新 组 织 (分 派 ) 到 延迟 槽 中 。 虚 拟 机 也 
提供 擅 指 令 ， 这 些 指令 看 起 来 和 汇编 语言 程序 中 的 真实 指令 一 样 。 然 而 ， 硬 件 完全 不 知道 这 些 伪 
指令 ， 所 以 汇编 器 必须 将 其 翻译 成 实际 机 器 指令 的 等 价 序列 。 例如 ， 当 一 个 寄存 器 等 于 0 或 者 不 
等 于 0 的 时 候 ，MIPS 硬件 仅仅 提供 分 支 指令 。 对 于 其 他 的 条 件 分 支 ， 例 如 那 种 当 一 个 寄存 器 的 
值 比 男 一 个 寄存 器 的 值 大 时 就 进行 分 支 的 类 型 ， 分 支 指令 会 被 综合 成 两 个 寄存 器 的 比较 ， 然 后 
当 其 比较 的 结果 是 真 〈 非 零 ) 时 就 执行 分 支 。 

默认 情况 下 ，SPIM 模拟 指令 集 更 丰富 的 虚拟 机 ， 因 为 这 是 一 个 对 很 多 程序 员 来 说 很 有 用 的 
仙 带 。 然 而 ，SPIM 也 能 模拟 实际 的 硬件 的 延迟 分 支 以 及 延迟 取 数 操作 。 下 面 ， 我 们 描述 虚拟 机 


已 SPIM 的 早期 版 本 《7.0 以 前 的 版 本 ) 实现 了 MIPS-1 的 体系 结构 ， 使 用 原始 的 MIPS R2000 处 理 器 ， 这 个 体系 结 
屋 几 季 是 MIPS-32 体系 结构 的 于 集 ， 不 同 在 于 异常 处 理 的 方式 。MIPS-32 也 引入 了 将 近 60 个 新 指令 ，SPIM 支持 
这 些 指令 。 程 序 可 以 在 SPIM 的 早期 版 本 中 运行 ， 而 且 不 使 用 异常 的 程序 可 以 不 加 修改 在 新 版 本 SPIM 上 运行 。 
使 用 异常 的 程序 将 需要 少许 的 修改 。 

号 虚拟 机 (virual machine) 一 种 虚拟 机 计算 机 ， 它 分 支 和 取 数 指令 没有 延迟 ， 且 指令 集 比 实际 硬件 更 丰富 
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并 且 仅 提 及 其 和 实际 的 硬件 没有 关系 的 特性 。 这 样 做， 我 们 遵循 了 MIPS 的 汇编 程序 员 (汇编 
器 ) 的 规程 ， 他 们 将 扩展 的 机 器 当成 是 由 硅 实现 的 机 器 那样 使 用 。 

从 SPIM 开始 

本 附录 的 剩余 的 部 分 介绍 SPIM 和 MIPS R2000 汇编 语言 。 你 不 用 关注 过 多 的 细节 ， 然 而 ， 大 
量 的 信息 很 多 时 候 会 模糊 以 下 事实 : SPIM 是 个 简单 易 用 的 程序 。 本 节 我 们 先 以 SPIM 的 快速 使 用 
教程 开始 ， 教 会 你 加 载 、 调 试 、 运 行 简单 的 MIPS 程序 。 

对 于 不 同类 型 的 计算 机 系统 ，SPIM 有 几 个 不 同 的 版 本 。 其 中 一 个 经 久 不 变 的 ， 是 最 简单 的 
版 本 ， 称 为 spim， 它 是 运行 在 控制 窗口 下 的 一 个 命令 行 驱动 程序 。 它 和 很 多 控制 台 程 序 一 样 操 
作 : 键入 一 行文 本 ， 按 回 车 键 ，spPim 执行 你 的 命令 。 尽 管 spim 缺乏 精美 的 界面 ， 但 它 可 以 做 
具有 精美 界面 的 同类 版 本 可 以 做 的 任何 事情 。 

spim 拥有 两 个 界面 精美 的 版 本 。 运 行 在 UNIX 或 者 Linux 系统 上 的 X- windows 环境 下 的 版 本 称 为 
xspim。 与 spim 相 比 ，xspim 更 易于 学 习 和 使 用 ， 因 为 它 的 指令 总 是 在 屏幕 上 可 见 的 ， 且 持续 显示 
机 融 的 寄存 器 和 内 存 。 另 一 个 版 本 是 Pcspim， 运 行 在 微软 的 Windows 系统 下 。SPIM 的 UNIX 和 Win- 
dows 版 本 都 在 CD 上 。xspim、pcSpim、spim 的 教程 和 SPIM 命令 行 选项 都 在 CD 上 。 

如 果 你 打算 在 运行 微软 Windows 系统 的 PC 上 运行 SPIM， 你 应 当先 阅读 CD 上 的 PCSpim 教 
程 。 如 果 你 打算 在 运行 UNK 或 Linux 的 PC 上 运行 SPIM， 你 应 当 阅 读 CD 上 的 xspim 教程 

令 人 惊讶 的 特性 

尽管 如 实 的 仿真 了 MIPS 计算 机 ， 但 SPIM 作为 一 个 仿真 器 ， 和 实际 计算 机 必定 是 不 相同 的 。 
最 明显 的 区 别 是 指令 的 时 序 和 内 存 系 统 不 同 。SPIM 不 模拟 cache 或 者 存储 器 的 延迟 ， 也 不 会 精 
确 反 映 浮 点 操作 、 乘 法 、 或 者 除法 指令 的 延迟 。 另 外 ， 浮 点 指令 不 检测 错误 条 件 ， 而 这 将 在 实际 
机 器 上 将 导致 异常 。 

为 一 个 令 人 惊讶 的 特性 (这 种 情形 在 真实 机 器 上 也 会 发 生 ) 是 将 伪 指 令 扩展 成 多 条 机 器 指 
令 。 当 你 单 步调 试 或 者 检查 存储 器 ， 你 所 看 到 的 指令 和 原始 的 程序 不 相同 。 两 组 指令 之 间 的 对 应 
性 相当 简单 ， 因 为 SPIM 并 没有 为 了 填充 延迟 槽 而 重组 指令 。 

字 节 顺序 

处 理 带 能 对 字 中 的 字 节 进行 编号 ， 这 样 编号 最 小 的 字 节 不 是 在 最 左边 就 是 在 最 右边 。 机 器 
使 用 的 该 约定 称 为 字 节 顺序 。MIPS 处 理 右 可 以 依 大 端 字 节 顺序 或 者 小 端 字 节 顺 序 进行 操作 。 例 
如 ， 在 大 端 机 器 下 ， 指 令 pyte 0,1,2,3 将 引起 一 个 内 存 字 包含 ， 
CO 


~ | 一 一 一 


但 是 在 小 端 机 器 下 ， 一 个 字 可 能 包含 : 


SPIM 以 两 种 字 节 顺序 操作 。SPIM 的 字 节 顺序 和 运行 仿真 器 的 底层 机 器 的 字 节 顺序 是 一 样 的。 例如 ， 
在 Intel 80x86 处 理 器 上 ，SPIM 是 小 端 ， 然 而 在 Macintosh 或 者 Sun SPARC 处 理 器 上 ，SPIM 是 大 端 。 

系统 调用 

SPIM 通过 系统 调用 ( Syscall) 指令 提供 了 一 小 组 类 似 操作 系统 的 服务 。 为 了 请 求 一 个 服 
务 ， 一 个 程序 加 载 系统 调用 代码 ( 见 图 B. 9. 1) 到 寄存 器 $vo ， 将 参数 加 载 到 寄存 器 $ao ~ $a3 
(或 用 于 浮 点 值 的 $f12)。 系 统 调用 将 返回 值 放 到 $vo (或 用 于 浮 点 值 的 $f0)。 例 如 ， 下 面 的 代 
码 将 打印 "the answer =5"; 
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B-9-1 系统 服务 









.data 
str: 

.asciiz"the anser=" 

.text 
1i $v0,4 #print_str 系统 调用 代码 
1a $a0 , str 桂 [ 印 的 字符 串 的 地 址 
Syscall # 打 印字 符 串 
11 $v0,1 #print int 系统 调用 代码 
1i $a0,5 持 [ 印 整数 
Syscall 村 了 印 它 


给 print int 系 统 调用 传递 一 个 整数 并 在 终端 上 打印 出 来 。 print float 打印 一 个 浮 点 
数 ; print_double 打 印 出 来 一 个 双 精 度 度 数 ， 而 给 print_string 传递 一 个 指向 空 的 终止 数据 串 的 
指针 ， 这 个 字符 串 写 到 终端 上 。 

系统 调用 read int, read float, 以 及 read double 来 读 取 一 个 完整 的 输入 行 ， 并 包含 一 个 新 行 。 
数字 后 面 的 字符 串 将 被 忽略 。read_string 具有 和 UNIX 库 例 程 fgets 相同 的 语义 。 它 将 读 取 的 n -1 个 
字符 在 到 缓冲 区 ， 并 使 用 一 个 空 字 节 作 为 结束 符 。 如 果 当 前 行 中 的 字符 数 少 于 nn -1 个 ，read_ string 
将 读 取 到 新 行 ， 并 再 次 使 用 一 个 空 字 节 作为 结束 符 。 

党 告 : 使 用 系统 调用 从 终端 读 取 数据 的 程序 不 应 当 使 用 内 存 映 射 的 IO ( 见 B. 8 节 )。 


sbrk 返回 一 个 指向 包含 n 个 额外 字 节 块 的 存储 器 指针 。exit 可 以 终止 SPIM 正在 执行 , 
exit2 终止 SPIM 程序 ， 并 且 当 SPIM 仿真 器 终止 时 ， 传递 给 exit2 的 参数 将 变 成 返回 什 的 程序 


print char 和 read char 分 别 读 和 写 单个 字符 。 open、read、write 以 及 close 是 UNIX 的 标 
准 库 调用 。 


B. 10 ”MIPS R2000 汇编 语言 


MIPS 处 理 硕 由 整 型 处 理 单元 (CPU) 和 一 系列 协 处 理 器 (用 于 执行 辅助 工作 或 诸如 浮 点 等 
其 他 数据 类 型 的 操作 ) 组 成 ( 见 图 B-10-1)。SPIM 可 模拟 两 个 协 处 理 器 。 协 处 理 器 0 用 于 处 理 
异常 和 中 断 。 协 处 理 器 1 是 浮 点 运算 单元 。SPIM 模拟 本 单元 的 大 多 数 功 能 。 
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协 处 理 器 0 陷阱 和 存储 器 ) 
寄存 器 


图 B-10-1 MIPS R2000 CPU 和 FPU 


B. 10. 1 和 寻 址 方式 、 


MIPS 采取 加 载 和 存储 体系 结构 ， 也 就 是 说 只 有 加 载 和 存储 指令 访问 存储 稻 。 计 算 指 令 只 对 


寄存 器 中 的 值 进 行 处 理 。 机 器 本 身 只 提供 一 种 存储 器 寻 址 模式 : c(rx)。 它 把 立即 数 " 和 寄存 天 
rx 的 值 相 加 作为 地 址 。 虚 拟 机 则 为 加 载 和 存储 指令 提供 了 以 下 几 种 寻 址 方式 : 


格式 地 址 计算 
(寄存 器 ) 寄存 器 内 容 
立即 数 立即 数 
立即 数 (寄存 瞬 ) 立即 数 + 寄存器 内 容 
标识 地 址 标识 
标识 土 立 即 数 地 址 标识 + 或 -立即 数 
标识 + 立即 数 (寄存 器 ) 地 址 标识 + 或 - (立即 数 + 寄 存 器 内 容 ) 


大 多 数 加 载 和 存储 指令 只 对 对 齐 数 据 进行 处 理 。 以 字 节 为 单位 ， 当 数据 所 在 的 存储 器 地 址 
是 其 大 小 的 整数 倍 时 ， 我 们 就 说 数据 是 对 齐 的 。 因 此 ， 半 字 对 象 必须 存放 在 偶 地 址 ， 而 全 字 对 象 
必须 存放 在 4 的 整数 倍 的 地 址 。 但 是 ，MIPS 还 提供 了 另外 一 些 指令 ， 可 以 对 非 对 齐 数 进行 操作 
(如 lwl, lwr, swl 和 swr)。 

精 解 : MIPS 汇编 器 (SPIM 也 一 样 ) 通过 在 对 数据 存 取 之 前 产生 一 条 或 多 条 指令 来 计算 复杂 的 地 址 ， 
因此 它 也 支持 一 些 复杂 的 寻 址 方式 。 例 如 ， 假 设 标识 table 指向 存储 器 地 址 0x10000004 ， 并 且 程 序 包含 一 
条 这 样 的 指令 : 

ld $a0,table +4{$al) 

汇编 器 会 将 这 条 指令 转化 为 下 面 三 条 指令 : 

lui $at,4096 


addu $at, $at, $al 
lw $a0,8 ($at) 


第 一 条 将 标记 地 址 的 高 位 送 人 寄存 器 $at (该 寄存 器 是 汇编 器 为 自己 保留 的 ) 。 第 二 条 将 寄 
存 器 $al 的 内 容 加 到 标识 的 局 部 地 址 上 。 最 后 ， 加 载 指令 用 硬件 寻 址 方式 将 标识 地 址 的 低位 和 寄 
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存 器 $at 中 相对 原始 指令 的 偏 移 量 相 加 。 


B. 10.2 汇编 语法 


汇编 文件 中 的 注释 行 以 “+#” 开 始 。 所 有 以 “+# ”开头 的 指令 行 都 会 被 忽略 。 
标识 符 由 字母 、 数 字 、 下 划 线 ( ~ ) 和 点 〈.) 构成 , 但 不 能 以 数字 开头 。 指 令 操作 码 是 
一 些 保留 字 ， 不 能 用 作 标 识 符 。 标 识 是 这 样 表示 的 : 将 其 放 在 行 首 ， 后 跟 冒 号 ( : ) 。 例 如 : 


.Gata 
item: .word1 

.区 Xt 

.globl main #Must be global 
main: lw $t0, item 


数值 默认 是 十 进 制 。 如 果 数 值 以 0x 开始 ， 则 表明 它们 是 十 六 进 制 数 。 因 此 ，256 和 0x100 所 
表示 的 数值 是 相同 的 。 
字符 串 用 双 引 号 (" ) 括 起 来 。 字 符 串 中 的 特殊 字符 遵从 C 语言 惯例 ; 


换行 
制 表 
引号 \" 


SPIM 还 支持 一 些 MIPS 汇编 指令 : 
align n 将 数据 以 2" 个 字 节 分 界 。 例 如 , .align 2 将 数据 以 字 为 单位 分 界 ; .align 0 关闭 .half、 
‘word、.float 和 .double 的 自动 分 界 方法 ,直到 出 现 .data 或 .kdata 为 止 。 
.aSCili str 将 字符 串 st 存 人 主 存 中 ,但 不 以 空 字符 结束 。 
.asciiz str 将 字符 串 str 存 人 主 存 , 并 以 空 字 符 结 束 。 
.byte bl,…,bn ”将 n 个 值 存 人 主 存 的 连续 字 节 中 。 
.data <addr> 将 后 续 项 存 人 数据 段 中 。 如 果 给 出 了 可 选 参数 addr, 则 后 续 项 存 人 以 addr 开始 的 主 存 地 址 中 。 
-double dl,…,dn ”将 = 个 双 精 度 浮 点 数 存 人 连续 的 主 存单 元 。 
"extern sym size 声明 存储 在 sym 中 大 小 为 size 字 节 的 全 局 变量 。 该 指令 允许 汇编 器 将 数据 存放 到 数据 
段 中 ,这 样 可 以 用 $gp 寄存 器 快速 存 取 。 
.float f1,…,fn 将 = 个 单 精度 浮 点 数 存 人 连续 的 主 存单 元 。 
.globl sym 声明 sym 是 全 局 标记 ,可 以 在 其 他 文件 中 引用 。 
.half hl,*…,hn 将 = 个 16 位 数据 存 信 连续 的 主 存单 元 。 
.kdata <addr > 的 生生 下 下 村 存 人 核心 数 据 有 中 。 如 果 给 出 了 可 选 参数 addr, 则 后 续 项 存 人 以 addzr 开始 
地 址 中 。 
.ktext <addr> 将 后 续 项 放 人 核心 正文 段 。 在 SPIM 中 ,这 些 后 续 项 只 能 是 指令 或 字 ( 参 看 下 面 的 . word 
指令 ) 。 如 果 给 出 了 可 选 参数 addr, 则 后 续 项 存 人 以 addr 开始 的 主 存 地 址 中 。 
.Set noat and .set at 前 一 指令 阻止 SPIM 对 后 续 指 令 中 使 用 $at 寄存 器 的 警告 ,后 一 指令 恢复 这 种 警告 。 
由 于 伪 指 令 展开 成 指令 时 会 用 到 寄存 器 $at ,程序 员 必须 谨慎 使 用 寄存 器 $at。 
-Spacen 在 当前 段 分 配 = 个 字 节 (SPIM 中 则 必须 为 数据 段 ) 。 
:text <addr > 将 后 续 项 送 人 用 户 正文 段 中 。 在 SPIM 中 :这些 后 续 项 只 能 是 指令 或 字 ( 参 看 下 面 的 . word 
指令 ) 。 如 果 给 出 了 可 选 参数 addr, 则 后 续 项 存 人 以 addr 开始 的 主 存 地 址 中 ， 
.WOrd WwW1 ，… ,wn 将 nn 个 32 位 数据 存 人 连续 的 主 存 字 中 。 


SPIM 不 区 分 数据 段 的 不 同 部 分 (.data，.rdata 和 .sdata ) 。 
B. 10.3 MIPS 指令 编码 


图 B-10-2 描述 了 MIPS 指令 是 如 何以 二 进 制 数 进行 编码 的 。 每 一 列 包 含 指令 字段 (邻接 的 一 
组 二 进 制 位 ) 的 编码 。 左 边界 的 数字 是 对 应 字段 的 值 。 例 如 ， 操作 码 j 在 操作 码 字 段 的 值 为 2。 
每 列 项 上 的 文字 定义 了 一 个 字段 ， 并 且 指 出 了 占用 指令 中 的 哪些 位 。 例 如 ，op 字段 对 应 指令 中 
的 26 ~31 位 。 该 字段 对 大 多 数 指令 进行 了 编码 。 然 而 ， 有 些 指令 组 用 到 了 附加 字段 以 区 别 相 关 
的 指令 。 例 如 ， 不 同 的 浮 点 数 指令 用 0 ~5 位 进行 区 别 。 第 一 列 的 箭头 表明 哪些 操作 码 用 到 了 这 
些 附 加 字段 。 
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(16:10) (16:10) 
0 movf 0 mov.f 
1 movt 1 mov.t 
1 1(5:0)| 70Juzrcto:0 funct (5:0) 
10 16 op(31:26) Or ee a 
YY ] 1 sub.f ] maddu 
2 02 1 sm | Smif | $m 
3 4 sllv 4 Sy db 
4 人 市 > > pe > msubu 
3 0 6 srlv 6 aDs. 6 
movf 
6 06 bisz 7 srav 二 7 7 
9 02 addiu 10 movz 10 10 
10 Oa slti 11 movn 11 11 
11 Ob sltiu 12 syscall Il2roundwf | 12 
13 0d ori 14 14 celly 14 
14 Qe xon 15 Sync lS5floorwf | 15 
15 0f lu 16 -mfhi EE 16 
16 10 z= 17 mthi 17 17 
?和 18 mflo 18 movzf 18 
18 14 z= 19 mtlo 19 movnf 19 
19 13 20 20 20 
20 14 beql 5] 5] 5] 
2] 1S bnel 52 52 252 
22 16 blezl 2 33 33 
雪人 74 milt 24 24 
34 18 25 multu 25 25 
和 2 1 536 div 76 526 
39 la 57 divu 57 57 
2 28 28 28 
和 抽 29 29 29 
3 上 rs ifz=lorz=2 jinct rt 30 30 30 
31 lf RD OP CO -i 把 -AS 让 
33 27 由 ee bat | 1 up 1 be 拖 2du | 3 殷红 和 纺 中 
2 也 ; be i 2 a 34 clo 
8 35 1 Sl SE el hy 35 35 
中 时 时 4 | 36 and 36 cvtwf 36 
39 34 joy -i 5 5 37 or es 37 
U 
和 后 | 
40 28 sb6 8 8 tIbp : tge! 4 | 2 
2 #7 1 1 10 苑 ” 42 slt 42 42 
4 28 SW ny 19 It 43 slt 43 43 
43 2b sw Jl 11 ll tltiu sltu p 
We A 
45 2 | 
46 2e swr 14 ifz=0 | 14 区 tnel 2 5 的 
4 eRehe 12 -oni 12 16 bltzal” 48-tge 48 cf 48 
4 37 1 19 eob 19 17 bgezal 49 人 cu 49 cutin 49 
3 18 blizall 50 二 50 c.eqj 50 
S0 32 lwc2 18 i 人 zx 一 ] 让 二 1 | 18 8 Ea 4 Oe cd 2 
Sl 33 pref 19 f=d es | 12 二 gcCZ >) : 2 ol 21 
52 34 20 20 20 2 teq 33 <0lty y 
53 35 ldcl 21 21 ) 33 ry eu 3 
54 36 ldc2 22 22 3 54 tne oe 汉 
38 38 53 24 -ie 和 38 56 csff 56 
56 38 se 24 24 eret 2 CSt: 0 
57 39 swcl 25 75 75 57 cngef 57 
58 3a Swc2 26 56 29 38 38 ‘SEq. 8 
59 3b 27 27 2 39 cnet 89 
60 3c 28 28 6 21 colt 1 
061 3d sdcl 29 29 29 61 人 Sp ef 6 
62 3e sdc2 30 30 30 62 clef 
63 3f 31 31 deret 31 63 63 cngtf 63 


图 B-10-2 MIPS 操作 码 图 
每 个 字段 的 数值 在 它 的 左 侧 显示 。 第 一 列 、 第 二 列 是 第 三 列 中 操作 符 字 段 (31 ~ 26 位 ) 对 应 的 十 进 制 值 
和 十 六 进 制 值 。 该 操作 符 字段 能 表达 除了 6 个 操作 数 (0，1,，16，17，18，19) 以 外 的 任何 MIPS 操作 。 这 
些 操作 由 其 他 字段 确定 ， 由 指针 进行 识别 。 如 果 m =16，op =17， 最 后 的 字段 (funct) 用 “f” 表 示 “s”; 
如 果 m=17，op =17， 则 “f” 表 示 “d"。 如 果 op =16，17，18，19， 则 第 二 列 (rs) 用 “z” 分 别 表示 : 
“0 ,，“] ，“2” ，“3"。 如 果 m =16， 则 操作 由 别处 定义 : 如 果 z=0， 则 操作 在 第 四 个 字段 中 定义 (4 ~0 
位 ); 如 果 z=1， 则 操作 在 最 后 的 字段 中 ， 且 f=s。 如 果 rs =17 且 z=1， 则 操作 在 最 后 的 字段 中 ， 且 f=d。 


B. 10. 4 ”指令 格式 


本 附录 的 剩余 部 分 将 对 由 MIPS 硬件 实现 的 指令 和 MIPS 汇编 器 实现 的 伪 指 令 进行 描述 。 这 
两 种 指令 很 容易 区 分 。 实 际 指 令 的 字段 用 对 应 的 二 进 制 来 表示 。 例 如 : 
加 法 操作 〈 审 溢出 位 ) 
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add 指令 由 6 个 字段 组 成 。 字 段 的 长 度 标 在 字段 下 面 。 该 指令 由 6 位 0 开始。 寄存 器 标识 符 
以 r 开始 ， 因 此 接 下 来 的 字段 是 称 为 rs 的 5 位 寄存 器 标识 符 。 它 与 本 行 左 边 汇编 代码 中 的 第 二 
个 参数 相同 。 另 一 个 常用 字段 是 imm。， 它 是 一 个 16 位 立即 数 。 

伪 指 令 大 体 上 遵循 这 些 约定 , 但 省 略 了 指令 编码 信息 。 例 如 : 

乘 操作 (不 带 溢出 位 ) 

mul rdest,rsrcl,src2 伪 指 令 

在 伪 指 令 中 ，rgest 和 rsrcl 表示 寄存 器 ， 而 src2 表示 寄存 器 或 立即 数 。 通 常情 况 下 ， 汇 编 
器 和 SPIM 将 一 条 通用 的 指令 格式 〈 例 如 ，aaa $v1i, $a0,0x55) 转化 为 特定 的 形式 〈 例 如 ，aadi 
$v1，$a0 ,0x55) 。 

算术 和 人 逻辑 指令 

绝对 值 

abs rdest,rsrc 伪 指 令 

将 寄存 器 rsrc 的 值 求 绝对 值 再 存 人 寄存 器 raest 中 。 

加 法 ( 带 溢出 位 ) 

add rd, rs, rt 


加 法 (不 带 洲 出 位 ) 
addu rd, rs, rt 


将 寄存 器 rs 和 rt 的 和 存 人 寄存 器 rd 中 。 
立即 数 加 ( 带 溢 出 位 ) 


aaai rt, re immL 8 | | rT imm | 


6 5 5 16 
立即 数 加 (不 带 溢出 位 ) 


aaaiu xt, rs, imml 9 | [上 [imm | 


TS 
6 5 5 16 
逻辑 与 
5 5 6 


将 寄存 器 rs 与 rt 进行 逐 位 逻辑 与 ， 结 果 存 人 寄存 器 ra。 
立即 数 与 


16 


将 寄存 器 rs 同 立即 数 进行 逐 位 逻辑 与 ， 结 果 存 人 寄存 器 rt。 


统计 起 始 为 1 的 个 数 

clo rd, rs 
6 

统计 起 始 为 0 的 个 数 


clz rd, rs es | Te To Jo 


5 


将 寄存 器 rs 中 数据 起 始 为 1 (0) 的 个 数 存 人 寄存 器 ra， 如 果 字 中 都 是 1 (0) ， 则 结果 为 32。 
除法 【 带 溢出 位 ) 


10 
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除法 (不 带 道 出 位 ) 
divu rs, rt 0 st 0 ob 


6 
寄存 器 rs 被 寄存 器 rt 除 ， 将 商 存 人 寄存 器 1o， 将 余数 存 人 寄存 器 hi。 如 果 其 中 有 某 个 操作 
数 是 负数 ， 则 余数 取决 于 运行 SPIM 的 计算 机 系统 ， 而 与 MIPS 体系 结构 无 关 。 


除法 【 带 溢出 位 ) 

div rdegt, rsrcl, src2 伪 指 令 

除法 (不 带 洲 出 位 ) 

Givu rdest, rsrcli, 8rc2 伪 指 令 

将 寄存 器 rsrcl 和 src2 的 商 存 人 寄存 器 rdest。 
乘法 

mult rs, rt 
无 符号 数 乘法 

mltu rs, rt me 


将 寄存 器 rs 和 rt 的 数据 相 乘 ， 乘 积 的 低位 字 和 高 位 字 分 别 存 人 寄存 器 jo 和 hi。 
乘积 (不 带 浇 出 位 ) 


ml rd, rs, rt 


将 rs 和 zt 乘积 的 低 32 位 存 人 寄存 器 ra 中 。 
乘积 ( 带 溢出 位 ) 


mulo rdest, rsrcl, src2 的 指令 

无 符号 数 相 乘 ({ 带 洲 出 位 ) 

mulou rdest, rsrcl, src2 的 指令 

将 寄存 器 rsrcl 各 Src2 的 乘积 结果 的 低 32 位 存 人 寄存 器 rdesto 
乘 加 

madd rs, rt 

无 符号 乘 加 

maddu rs，xt 

将 寄存 器 rs 和 rt 的 乘积 所 得 的 64 位 结果 与 连接 寄存 器 1o 和 hi 中 的 64 位 值 相 加 。 
乘 减 

MSuD rs, rt 

无 符号 乘 减 

msub rs, rt 


将 奇 存 器 rs 和 rt 的 乘积 所 得 的 64 位 结果 与 连接 寄存 器 1o 和 hi 中 的 64 位 值 相 减 。 
求 相 反 数 ( 带 溢出 位 ) 

neg rdest, rsrce 的 指令 

求 相 反 数 (不 带 溢出 位 ) 


negu rdest, rsrc 伪 指 令 
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将 寄存 絮 rsrc 的 相反 数 存 人 寄存 器 rdesto 
异 或 


nor rd, rs, rt 


将 寄存 吕 rs 和 rt 的 异 或 结果 存 人 寄存 器 rdo 


取 反 

not rdest, rsrc 伪 指 令 

将 寄存 器 rsrc 逐 位 取 反 存 人 寄存 器 rdesto 
逻辑 或 


or rd, rs, rt 0 is ln le lo [os 
6 


逻辑 或 ( 立即 数 ) 
ori zt, ze, iom [od Is [rt im | 
6 5 5 16 
将 寄存 器 rs 和 0 扩展 立即 数 按 位 逻辑 或 的 结果 存 人 寄存 器 rt。 
求 余数 
rem rdest, rgsrcel, rsrc2 的 指令 
求 无 符号 数 的 余数 
remu rdest, rsrcl, rsrc2 伪 指 令 


寄存 器 rsrcl 被 寄存 器 rsrc2 除 ， 将 余数 存 人 寄存 器 raest。 注 意 ， 如 果 其 中 有 某 个 操作 数 
是 负数 ， 则 余数 取决 于 运行 SPIM 的 计算 机 系统 ， 而 与 MIPS 体系 结构 无 关 。 

逻辑 左 移 

sa ra zt shamt 


5 5 3 
逻辑 左 移 变量 
算术 右 移 
算术 右 移 变量 
逻辑 右 移 
逻辑 右 移 变量 | l 


由 立即 数 shamt 或 寄存 器 rs 指定 寄存 器 rt 的 左 移 或 右 移 位 数 ， 并 将 结果 存 人 寄存 器 rd。 注 
意 ， 变量 rs 被 sl11、sra 和 sri 所 忽略 。 
循环 左 移 


rol rdest, rasrcl, rsre?2 伪 指 令 
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循环 右 移 

ror rdest, rsrci, rsrc2 伪 指 令 

将 寄存 器 *srcl 左 移 或 右 移 由 rsrc2 指定 的 位 数 ， 然后 将 结果 存 人 寄存 器 rdest。 
减法 ( 带 滋 出 位 ) 


Sub rd, rs, rt LE mL | m2 


6 
减法 (不 带 洲 出 位 ) 时 | 
Subu rd, rgs, rt 0 ls |ir led) oo lo 


6 
将 寄存 器 rs 减 去 寄存 器 rt 并 将 结果 存 人 寄存 器 rd。 
XOr rd, rs, rt nH | ooo 
. 3 3 9 6 
将 寄存 器 rs 和 rt 按 位 逻辑 蜡 或 的 结果 存 人 寄存 器 rd。 
异 或 【 司 立 即 数 ) 


xori zt, re imlLoe |s lr Tim 
将 寄存 器 rs 和 0 扩展 立即 数 按 位 逻辑 异 或 的 结果 存 人 寄存 器 rt。 
B. 10. 5 常数 操作 指令 


立即 数 高 位 取 指 令 
lui rt, imm Oxf olr |im | 
6 3 5 16 
将 立即 数 imm 的 低 半 字 位 存 人 寄存 器 zt 的 高 半 字 位 地 址 ， 并 将 寄存 器 的 低位 值 置 为 0。 
取 立 即 数 
li rdest, imm 伪 指 令 
将 立 即 数 imm 存 人 寄存 器 rdesto 
B. 10. 6 比较 指令 
小 于 指令 
slt ra, rs, rt 


小 于 无 符号 数 指令 


SItu rd, rs, rt 0 0x2b | 
5 5 6 


寿 寄 存 器 rs 比 rt 小 ， 则 将 寄存 器 ra 置 为 1 ; 否则 ， 将 ra 置 为 0。 
小 于 立即 数 


3 16 
小 与 立即 数 (无 符号 数 ) 


16 


5 5 


熙 寄存 器 rS 比 符号 扩展 立即 数 小 ， 则 将 寄存 器 工 七 置 为 1; 合 则 ， 将 rt 置 为 0 
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等 于 

sedq rdest, rsrcl, rsrc2 的 指令 

若 寄存 屁 rsrcl 与 寄存 融 rsrc2 的 数值 相等 ， 则 将 寄存 器 rdest 置 为 1 ; 否则 3 将 rdest 置 为 0。 
大 于 等 于 

sge rdest, rsrcl, rsrc?2 伪 指 令 

大 于 等 于 无 符号 数 

sgeu rdest, rsrcl, rsrc2 伪 指 令 

者 寄存 器 rsrcl 大 于 等 于 寄 存 咒 rsrc2 的 值 ， 则 将 寄存 器 rdest 置 为 1 ’ 个 则 ? 将 rdest 置 为 0。 
大 于 

sgt rdest, rsrcl, rsrce2 伪 指 令 

大 于 无 符号 数 

sgtu rdest, rsrcl, rsrc2 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 大 于 rsrc2 的 值 ， 那 么 令 寄存 器 raest 的 值 为 1 ， 和 否则 为 0。 

小 于 等 于 

sle rdest, rsrcl, rsrc2 伪 指 令 

小 于 等 于 无 符号 数 

sleu rdest, rsrcl, rsrc2 伪 指 令 


如 果 寄 存 器 rsrcl 的 值 小 于 等 于 rsrc2 的 值 ， 那么 令 寄 存 器 rdest 的 值 为 1， 否则 为 0。 
不 等 


sne rdest, rsrcl, rsrc2 伪 指 令 
如 果 寄 存 器 rsrci 的 值 不 等 于 rsrc2 的 值 ， 那么 令 寄 存 器 raest 的 值 为 1， 否则 为 0。 
B. 10. 7 分 支 指令 


分 支 指令 使 用 了 一 个 有 符号 的 16 位 指令 偏 移 域 ， 因 此 ， 指 令 跳 转 的 范围 可 以 是 向 前 的 25 -1 条 
指令 〈 非 字 节 ) ， 或 者 向 后 的 215 条 指令 。 跳 转 指 令 包 含 了 一 个 26 位 的 地 址 域 。 在 实际 的 MIPS 处 
理 右 中 ， 分 支 指令 是 延迟 的 分 支 ， 直 到 分 支 指令 后 面 的 指令 〈 延 迟 槽 ) 执行 后 ， 才 能 进行 控制 转移 
( 兄 第 4 章 )。 当 分 支 发 生 时 ， 由 于 需要 计算 相关 的 延迟 槽 指令 (PC +4) 的 地 址 ， 因此 延迟 的 分 支 
会 影响 偏 移 量 的 计算 。 除非 明确 指定 -bare 或 者 -delayed branch 的 标志 ? 否则 SPIM 不 模拟 延迟 模 。 

在 汇编 语言 中 ， 偏 移 量 并 不 具体 指定 为 数字 。 而 是 用 一 个 指向 标记 的 指令 ， 并 用 汇编 器 计算 
出 分 支 指令 和 目标 指令 之 间 的 距离 。 

在 MIPS-32 中 ， 所 有 实际 的 不 是 伪 的 ) 条 件 分 支 指令 都 有 相似 的 变 体 (例如 ， 与 bea 相似 的 变 
体 是 peql ) ， 如 果 分 支 没有 发 生 ， 那 么 分 支 延 迟 槽 中 的 指令 就 不 能 执行 。 不 要 使 用 这 些 指令 ， 在 后 续 
的 体系 结构 版 本 中 ， 它 们 可 能 将 被 删除 。SPIM 实现 了 这 些 指令 ， 但 并 没有 做 深入 讨论 。 


分 支 指令 

b label 伪 指 今 

无 条 件 转移 到 标记 的 指令 。 

分 支 协 处 理 器 假 加 时 

bclf ce label 
3 16 

分 支 协 处 理 器 真 


bclt cc label ls Te [lt Tom 


6 2 


如 采 浮 点 协 处 理 器 条 件 标记 cc 为 假 ( 真 )， 条 件 转 移 的 指令 数 由 偏 移 量 所 指定 。 如 果 cc 被 
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指令 所 忽略 ， 条 件 码 标记 为 0。 
相等 分 支 


beq rs, rt, label 


16 


如 果 寄 存 器 值 rs 和 rt 相等 ， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 


大 于 等 于 0 分 支 
bgez rs, label 

如 果 寄存 器 rs 的 值 大 于 等 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
大 于 等 于 0 分 支 并 链接 

bgezal rs, 1abel 


如 有 果 寄 存 器 rs 的 值 大 于 等 于 0， 条件 转移 的 指令 数 由 偏 移 量 所 指定 。 并 将 下 一 条 指令 地 址 
保存 在 寄存 器 31 中 。 


大 于 0 分 支 

如 果 寄 存 器 rs 的 值 大 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 

小 于 等 于 0 分 支 

blez rs, label 

如 采 寄 存 器 rs 的 值 小 于 等 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
小 于 0 分 支 并 链接 

bltzal rs, label 


如 果 寄 存 器 rs 的 值 小 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 ， 并 将 下 一 条 指令 地 址 保存 
在 寄存 器 31 中 
小 于 0 分 支 


bltz rs, label 1 Jws|o0 [omet | 


6 5 5 16 


如 果 寄 存 器 rs 的 值 小 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
不 相等 分 支 


bne rs, rt, 1abel 


如 有 果 寄 存 器 rs 与 rt 中 的 值 不 相等 ， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
等 于 0 分支 

beqz rsrc, label 伪 指 令 

如 果 rsrc 等 于 0， 条 件 转移 到 标记 的 指令 那里 。 

大 于 等 于 分 支 
bge rsrcl, rsrc2, label 和 伪 指 今 

大 于 等 于 无 符号 数 分 支 - 


bgeu rsrcl, rsrc2, label 伪 指 令 
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如 果 寄 存 器 rsrcl 的 值 大 于 等 于 rsrc2 的 值 ， 条 件 转移 到 标记 的 指令 那里 。 
大 于 分 支 


bgt rsrcl, src2, label 伪 指 令 

大 于 无 符号 数 分 支 

bgtu rsrcl, src?, label 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 大 于 src2 的 值 ， 条 件 转移 到 标记 的 指令 那里 。 
小 于 等 于 分 支 

ble rsrcl, rsrc2, label 伪 指 令 

小 于 等 于 无 符号 数 分 支 

bleu rsrcl, rsrc2, label 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 小 于 等 于 sre2 的 值 ， 条 件 转移 到 标记 的 指令 那里 。 
小 于 分 支 

blt rsrcl, rsrc2, label 伪 指 令 

小 于 无 符号 数 分 支 

bltu rsrcl, rsrc2, label 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 小 于 rsrc2 的 值 ， 条 件 转移 到 标记 的 指令 那里 。 
不 等 于 0 分支 

bnez rsrc, label 伪 指 令 


如 果 寄 存 器 rsrc 的 值 不 等 于 0， 条 件 转移 到 标记 的 指令 那里 。 
B. 10. 8 ” 跳 转 指令 
跃 转 


2 
j target 2 8 


无 条 件 跳 转 到 目标 指令 。 
跳 转 并 链接 


t 


6 26 
无 条 件 跳 转 到 目标 指令 ， 并 将 下 一 条 指令 地 址 保存 到 $ra 中 。 
跳 转 并 链接 到 寄存 器 
jalr rs, rgd 
无 条 件 跳 转 到 由 寄存 器 rs 指定 的 指令 (指令 地 址 在 寄存 器 rs 中 ) 。 并 将 下 一 条 指令 地 址 保 
存在 寄存 器 ra 中 (默认 为 31) 。 
寄存 器 跳 转 


jr rs 0 js Ts 
6 6 
无 条 件 跳 转 到 由 寄存 器 rs 指定 的 指令 。 
B. 10.9 ”陷阱 指令 
等 于 陷阱 


10 6 
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如 果 寄 存 器 rs 的 值 等 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
等 于 立即 数 陷阱 


tedqi rs, imm 


不 等 于 陷阱 


6 5 5 10 
如 果 寄 存 帮 rs 的 值 不 等 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
不 等 于 立即 数 陷阱 


rs 
imm, 引 发 陷 嘲弄 浓 © 


th 
[i 
[ma 


日 
a] 


imm, 引发 陷阱 异常 。 








如 采 寄 存 器 rs 的 值 不 等 于 符号 扩展 值 
大 于 等 于 陷阱 


Un 
Cn 


Lo 人 
a 人 


七 Ge rs, rt 


10 
大 于 等 于 无 符号 数 陷阱 
caeora rt to mr 


如 果 寄 存 器 rs 的 值 大 于 或 等 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
大 于 等 于 立即 数 陷阱 


tgei rs, imm Le sm 
大 于 等 于 无 符号 立即 数 陷阱 


imm 


nh 
Ch 


日 

el 
ft [a 
cn 


tgeiu rs, imm 





如 果 寄 存 器 rs 的 值 大 于 等 于 符号 扩展 值 一 imm， 引 | 发 陷阱 异常 。 
小 于 陷阱 
tlt rs, rt 
6 

小 于 无 符号 数 陷阱 
tltu rs, rt 2 slr] 0o To 

S 10 6 
如 果 寄 存 器 rs 的 值 小 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
小 于 立即 数 陷阱 
tlti rs, imm em 

16 

小 于 等 于 无 符号 立即 数 陷阱 


rtiu rs immLL [mb 
5 5 


6 16 


如 采 寄 存 器 rs 的 值 小 于 等 于 符号 扩展 值 





imm,，5| 发 陷阱 异常 。 
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B. 10. 10” 取 数 指令 
取 地 址 
la rdest, address 伪 指 令 
将 计算 的 地 址 ~ 一 -不 是 地 址 中 的 内 容 一 一 保存 到 寄存 器 raest 中 。 
取 字 节 
lb rt, address 
5 
取 字 节 (无 符号 ) 
lbu rt, address 


将 地 址 address 中 的 字 节 内 容 存 人 寄存 器 rt 中 ， 字 节 由 lp 符号 扩展 ， 而 不 是 由 lpu。 
取 半 字 
lh rt, address 

6 


5$ 5S 16 
取 半 字 (无 符号 ) 
lhu rt, address 


5 5 16 
将 地 址 address 中 16 位 数值 ( 半 字 ) 存 人 寄存 器 rt 中 ， 半 字 由 lh 符号 扩展 ， 而 不 是 由 1pu。 
取 字 
Jw zt, address [m23 | |r lome | 
6 


5 5 16 

将 地 址 address 中 32 位 数值 ( 字 ) 存 人 寄存 器 rt 中 。 
协 处 理 器 1 取 字 
lwcl ft, address O31 rs Ir Jome | 

6 5 5 16 
将 地 址 address 中 的 字 以 浮 点 单元 的 形式 存 人 寄存 器 ft 中 。 
取 左 半 字 
lwl rt, address oz js ln [ome | 

6 5 5 


16 
取 右 半 字 
Jwr rt, addresgss 0x26 | rs Jn om | 
6 5 5 16 
将 可 能 非 对 齐 地 址 address 中 值 的 左 〈 右 ) 半 字 存 人 寄存 器 rt 中 。 


取 双 字 

ld rdest, address 伪 指 令 

将 地 址 address 对 应 的 64 位 数值 存 人 寄存 器 raest 和 raest +1 中 。 
非 对 齐 地 址 中 取 半 字 

ulh rdest, address 伪 指 令 

非 对 齐 地 址 中 取 半 字 (无 符号 ) 

ulhu rdest, address 伪 指 令 


将 可 能 非 对 齐 地 址 address 中 16 位 数值 ( 半 字 ) 仓 人 寄存 器 rdest 中 ， 半 字 由 uan 符号 护 
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展 ， 而 不 是 由 ulhu。 
非 对 齐 地 址 中 取 字 (无 符号 ) 


ujw rdest, address 伪 指 令 
将 可 能 非 对 齐 地 址 address 中 32 位 数值 ( 字 ) 存 人 寄存 器 raest 中 。 
链接 取 


0x30 It Offset 
5 5 


将 address 中 32 位 数值 存 人 寄存 器 rt 中 ， 并且 开始 执行 原子 读 一 修改 一 写 操作 。 该 操作 由 
条 件 存 指令 (sc) 来 完成 ， 但 如 果 其 他 处 理 器 对 包含 有 被 取 字 的 块 进行 写 操 作 时 ， 该 操作 将 失 
败 。 由 于 SPIM 不 能 模拟 多 处 理 器 ， 因 而 条 件 存 操作 总 是 可 以 成 功 执行 的 。 


B. 10. 11 保存 指令 


存 字 节 
sb rt, address oo8 Jn ln [om 


将 寄存 器 rt 的 低 字 节 保 存 到 地 址 address 中 。 
存 半 字 
oh rt, address oo Im |n [om 


5 5 16 


将 寄存 器 rt 的 低 16 位 值 〈 半 字 ) 保存 到 地 址 address 中 。 
存 字 


sw rt, address ls la Jom 


将 寄存 器 rt 中 的 字 保 存 到 地 址 address 中 。 
协 处 理 器 1 存 字 


SwWCl1 ft, address rs |f lo | 


将 浮 点 协 处 理 器 中 寄存 器 ft 中 的 值 以 浮 点 类 型 存 人 地 址 address 中 。 
协 处 理 器 1 存 双 字 
sdcl ft, address ee rs |R [one | 


$ 5 16 


将 浮 点 协 处 理 器 中 寄存 器 ft 和 ft +1 中 的 数值 以 浮 点 类 型 存 人 地 址 address 中 。 和 寄存 如 ft 必 
须 偶 数 化 。 


[| 
Ln 


li1 rt, address 


存 左 半 字 

Swl rt, address Ox2a 
4 5 5 16 

存 右 半 字 


SwI It, address 


16 
将 寄存 器 rt 中 的 左右) 半 字 保存 到 可 能 非 对 齐 地 址 address 中 。 
存 双 字 


sd rsrc, address 人 的 指令 


将 寄存 器 rsrc 和 rsrc +1 中 的 64 位 数值 保存 到 地 址 address 中 。 
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非 对 齐 地 址 中 存 半 字 

ush rsrc, address 伪 指 令 ' 

将 寄存 器 rsrc 中 的 低 16 位 〈 半 字 ) 保存 到 可 能 的 非 对 齐 地 址 address 中 。 
非 对 齐 地 址 中 存 字 


usw rsrc, address 伪 指 令 
将 寄存 器 rsrc 中 的 字 保 存 到 可 能 的 非 对 齐 地 址 address 中 。 
条 件 存 


SC rt, address 


将 寄存 器 rt 中 的 32 位 数值 ( 字 ) 存 人 内 存 地 址 address 中 ， 并 完成 原子 读 一 修改 一 写 操作 。 
如 果 原 子 操 作成 功 执行 ， 内 存 中 的 字 被 修改 ， 寄 存 器 rt 的 值 设置 为 1。 如 果 由 于 其 他 处 理 器 对 
包含 地 址 字 的 块 进行 写 操作 而 导致 原子 操作 失败 ， 该 指令 不 能 修改 和 内存， 并 将 寄存 器 rt 的 值 设 
置 为 0。 由 于 SPIM 不 能 模拟 多 处 理 器 ， 因 而 该 指令 总 是 可 以 成 功 执行 的 。 


B. 10. 12 ”数据 传送 指令 


传送 指令 
move rdest ,rsrc 伪 指 令 

将 寄存 器 rsrc 中 的 数值 传送 到 寄存 器 rdest 中 。 
从 二 寄存 器 传送 


nnira 1° | 0 Twa fo [oao 
6 5 6 


$ 
从 lo 寄存 器 传送 
mflo ra 0 | To | 
6 6 


来 法 和 除法 单元 将 处 理 的 结果 存 人 hi 和 lo 这 两 个 额外 的 寄存 器 中 。 这 些 指令 向 (从) 这些 
寄存 器 中 传送 数据 。 乘 、 除 、 取 余 伪 指 令 像 使 用 通用 寄存 器 那样 使 用 这 些 单元 ， 并 在 计算 结束 后 
传送 结果 。 

将 寄存 器 hi (lo) 中 的 数值 传送 到 寄存 器 ra 中 。 

传送 至 hi 寄存 器 


nthirz [°° so To 


6 
ntlo rs os 


将 寄存 器 rs 的 值 传 送 至 hi (1o。) 寄存 器 。 
从 协 处 理 器 0 中 传送 


mtcO rt, rd 
从 协 处理 器 1 中 传送 


6 11 


协 处 理 器 有 它们 自己 的 寄存 器 集合 。 这 些 指令 在 协 处 理 器 的 寄存 器 和 CPU 寄存 器 之 间 传 送 数据 。 
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将 协 处 理 器 中 寄存 器 ra (在 FPU 中 是 fs) 的 值 传 送 至 CPU 寄存 器 rt 中 。 浮 点 单元 使 用 协 处 


理 屁 1。 
从 协 处 理 器 1 中 传送 双 字 


mfcl.d rdest,frsrcl 伪 指 令 
将 浮 点 寄存 器 frsrcl 和 frsrcl 十 工 中 的 值 传 送 到 CPU 寄存 器 rdest 和 rdest+1 中 。 
传送 到 协 处 理 器 0 
nteo ra， rt 
传送 到 协 处 理 器 1 


mtel rd, fs 


6 11 
将 CPU 中 寄存 器 rt 的 值 传送 到 协 处 理 器 的 寄存 器 ra 中 (或 者 FPU 的 寄存 器 fs 中 ) 。 
非 等 条 件 传送 
movn rd, rs, rt sn Oxb | 


6 11 
如 采 寄 存 器 rt, 的 值 不 为 0， 将 寄存 器 rs 中 的 数值 传送 到 寄存 器 ra 中 。 
零 条 件 传 送 
movz rd, rs, rt 0 Jwnlrn |r | 
4 4 $ 


6 11 
如 果 寄 存 屁 rt 的 值 为 0， 将 寄存 器 rs 中 的 数值 传送 到 寄存 器 ra 中 。 
FP 值 为 假 时 条 件 传送 
movf rd, rs, cc seo [nTlol | 
5 5 6 


6 
如 果 FPU 条 件 码 标记 cc 为 0， 将 CPU 寄存 器 rs 中 的 值 传送 至 寄存 器 ra 中 。 如 果 cc 被 指令 
忽略 ， 那 么 条 件 码 标记 为 0。 
KP 值 为 真 时 条 件 传送 
movt rd, rs, cc LT 


6 


如 条 FPU 条 件 码 标 记 ce 为 1， 将 CPU 寄存 器 rs 中 的 值 传送 至 寄存 器 ra 中 。 如 果 cc 被 指令 
忽略 ， 那 么 条 件 码 标记 为 0。 


B. 10. 13” 浮 点 运算 指令 


MIPS 中 有 专门 的 浮 点 协 处 理 器 (序号 为 1 )， 可 以 执行 单 精度 浮 点 数 (32 位 ) 和 双 精 度 浮 
尽数 64 位 )。 协 处 理 器 有 自己 的 寄存 器 ， 寄 存 器 从 $f0 ~ $f31。 由 于 这 些 寄存 器 位 宽 为 32 位 ， 
因此 两 个 浮 点 寄存 器 一 起 使 用 可 以 实现 双 精 度 浮 点 数值 。 肖 点 协 处 理 器 还 有 8 个 条 件 码 (cc) 标 
记 ， 序 号 0 ~7， 由 比较 指令 设置 ， 分 支 (belt 和 bclt) 和 条 件 转 移 指 令 完 成 校 验 。 

lwcl、swcl、mtcl 和 mfcl 指令 每 次 能 从 寄存 器 传送 或 者 移出 一 个 字 (32 位 )。Jgci 和 sdcl 
指令 ， 或 者 像 下 面 描述 的 ls、1d、s.s 和 和 s.d 伪 指 令 每 次 能 像 寄 存 器 传送 或 者 移出 一 个 双 
字 (64 位 )。 

在 下 面 的 实际 指令 中 ， 单 精度 指令 的 21 ~26 位 为 0， 双 精 度 指令 的 21 ~26 位 则 为 1。 在 下 
面 的 伪 指 令 中 ，faest 是 浮 点 寄存 器 (如 $f2)。 
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双 精 度 浮 点 数 的 绝对 值 


abs.d fd, fs ol 0 | 人 | 和 15 


6 5 5 5 5 
单 精度 浮 点 数 的 绝对 值 
spsis sa teLol |o |o ls In|s | 
计算 寄存 器 fs 中 双 精 度 ( 单 精度 ) 浮 点 数 的 绝对 值 ， 并 将 计算 结果 存 人 寄存 器 fa 中 。 
双 精 度 浮 点 加 法 
add.q fada, fs, ft 


单 精度 浮 点 加 法 
a ts ttLol [on0 [a ls fm fo | 
add.s fd, fs, 5 5 3 5 


计算 寄存 器 fs 和 ft 中 双 精度 〈 单 精度 ) 浮 点 数 之 和 ， 并 将 计算 结果 存 人 寄存 器 fa 中 。 
浮 点 数 向 上 舍 入 
ceil.w.d fd, fs 


ceii.w.s 1a, teLol [oo |o Ts Tt |ox 
将 寄存 器 fs 中 双 精 度 单 精度 ) 数值 向 上 舍 信 ， 并 转换 成 32 位 的 定点 值 ， 将 结果 存放 在 寄 


存 器 fa 中 o 
双 精 度 相 等 比较 站 
3 
单 精度 相等 比较 


比较 寄存 器 fs 和 ft 中 双 精 度 ( 单 精度 ) 浮 点 数 是 否 相等 ， 如 果 相 等 ， 将 浮 点 条 件 标 记 位 ec 
设置 为 1。 如 果 ce 被 忽略 ， 条 件 码 标记 为 0。 
双 精 度 小 于 等 于 比较 


2 
单 精度 小 于 等 于 比较 


c.le.s ce fs, ft 


2 4 


将 寄存 器 fs 和 ft 中 双 精度 〈 单 精度 ) 浮 点 数 进行 比较 ， 如 果 fs 中 的 数值 小 于 等 于 ft 中 的 
数值 ， 将 浮 点 条 件 标 记 位 ce 设置 为 1。 如 果 cc 被 忽略 ， 条 件 码 标记 为 0。 


双 精 度 小 于 比较 
单 精度 小 于 比较 


c.lt.s ce fs, ft wu lo la Ts Te To Tico 
5 2 2 4 
将 寄存 器 fs 和 ft 中 双 精 度 ( 单 精度 ) 学 点 数 进行 比较 ， 如 果 fs 中 的 数值 小 于 ft 中 的 数 
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值 ， 将 浮 点 条 件 标记 位 cc 设置 为 1。 如 果 cc 被 忽略 ， 条 件 码 标记 为 0。 


单 精 度 到 双 精 度 的 转换 
cvt.d.s fda, fs 
整 型 到 双 精 度 的 转换 


ovt dw fd, fs 
将 寄存 器 fs 中 的 单 精度 浮 点 数 或 者 整 型 数 转 换 成 双 精 度 浮 点 数 ， 并 存 人 寄存 器 fa 中 。 


双 精 度 到 单 精度 的 转换 
cvt.s.d fd, fs 
整 型 到 单 精度 的 转换 


cvt.s.w fd, fs 
将 寄存 器 fs 中 的 双 精 度 浮 点 数 或 者 整 型 数 转换 成 单 精度 浮 点 数 ， 并 存 人 寄存 器 fa 中 。 


双 精 度 到 整 型 的 转换 
cvt.w.Q fd, fs < 
单 精度 到 整 型 的 转换 


CVvt.w.s fd, fs 
将 寄存 器 fs 中 的 双 精 度 浮 点 数 或 者 单 精度 浮 点 数 转换 成 整 型 数 ， 并 存 人 寄存 器 fa 中 。 


双 精 度 浮 点 除法 
6 
单 精度 浮 点 除法 


div.s fd, fs, ft 


将 寄存 器 fs 和 ft 中 的 双 精 度 ( 单 精度 ) 浮 点 数 相 除 ， 并 将 计算 结果 存 人 寄存 器 fa 中 。 
浮 点 数 向 下 例 入 


Hoor.w.d fd, fs 


Hoor.w.s fd, fa om | ou0 To Ts |r To | 
将 寄存 器 fs 中 的 双 精度 〈 单 精度 ) 数值 向 下 合 人 ， 并 将 结果 存放 在 寄存 器 fa 中 。 


取 双 精度 浮 点 数 

l.d fdest,address 伪 指 令 

取 单 精度 浮 点 数 

1l1.s fdest,address 伪 指 令 

将 地 直 adqress 相应 的 双 精 度 ( 单 精 度 ) 浮 点 数 存 人 寄存 器 fdest 中 。 
双 精 度 浮 点 数 的 传送 


mov.d fd, fs 
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单 精度 浮 点 数 的 传送 
mov.S fd, fs | 2 [or 
将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 到 寄存 器 fa 中 。 
条 件 为 假 时 双 精 度 浮 点 数 传送 

f.GQ fd, Ef ox | oxll [ee |o [|s | |o | 
MO 5 3 3 5 5 6 
条 件 为 假 时 单 精度 浮 点 数 传送 


movt .S fd, fs, cc ou om ee lo lela lon 
0 5 3 2 5 


如 果 条 件 码 标记 cc 为 0， 将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传 送 到 寄存 器 fa 中 。 如 
果 cc 被 忽略 ， 条 件 码 标记 为 0。 


条 件 为 真 时 双 精 度 浮 点 数 传送 
movt.d fd, fs, cc 3 ~ 
条 件 为 真 时 单 精度 浮 点 数 传送 


movt.s fd, fs, cc 


如 采 条 件 码 标 记 ce 为 1， 将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 到 寄存 器 fa 中 。 如 
采 cc 被 忽略 ， 条 件 码 标记 为 0。 : 


非 零 条 件 双 精 度 浮 点 数 传 送 
movn.d fd, fs, rt 
非 零 条 件 单 精度 浮 点 数 传 送 


movn.s fd, fs, rt 


如 果 处 理 器 寄存 器 rt 中 的 值 不 等 于 0， 那 么 将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 
到 寄存 器 fa 中 。 


等 于 零 条 件 双 精度 浮 点 数 传送 

novz a za， fts， 上 
6 2 5 5 5 6 

等 于 零 条 件 单 精度 浮 点 数 传送 


movz.s fd, fs, rt 
3 5 


如 有 果 处 理 器 寄存 器 rt 中 的 值 等 于 0， 那 么 将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 到 
寄存 器 fa 中 。 


双 精 度 浮 点 乘 

mul.d fa, fs, ft Ox11 fd 
6 3 5 5 3 6 

单 精度 浮 点 乘 


mal.s fa, fa, ft 
3 3 5 5 6 
将 寄存 器 fs 和 ft 中 的 双 精 度 ( 单 精度 ) 浮 点 数 相 乘 ， 并 将 计算 结果 存 人 寄存 器 fa 中 。 
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对 双 精 度数 求 反 
neg.d fa, fa 
对 单 精度 数 求 反 


negis fa, Fs mu [oo o J | 人 | 7 | 
6 5 5 5 5 6 


对 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 求 反 ， 并 将 结果 存 人 寄存 器 fa 中。 
对 浮 点 数 四 舍 五 入 
round.w.d fd, fs 


将 寄存 器 fs 中 的 双 精 度 〈 单 精度 ) 数 四 舍 五 人 人， 转换 成 32 位 的 定点 数 ， 并 存 人 寄存 器 fa 中 。 


对 双 精 度数 求 平方 根 
对 单 精度 数 求 平 方 根 


sgrt.s fd, fs Lo 


对 寄存 器 fs 中 的 双 精 度 〈 单 精度 ) 数 求 平方 根 ， 并 存 人 寄存 器 fa 中 。 


保存 双 精 度 浮 点 数 

S.Q fdest ,address 萝 指 令 

保存 单 精度 浮 点 数 

5.5 fdest ,address 爸 指 令 

将 寄存 器 fdest 中 的 双 精 度 ( 单 精度 ) 浮 点 数 存 人 地 址 address 中 。 
双 精 度 浮 点 减法 四 

sub.d fd，fs，ft RE 

单 精 度 浮 点 减法 


sub.s fd, Es, ft 


将 寄存 器 fs 和 zt 中 的 双 精 度 〈 单 精度 ) 浮 点 数 相 减 ， 并 将 计算 结果 存 人 寄存 器 fa 中 。 
将 浮 点 数 截 取 为 字 


trunc.w.d fa, Es 









人 


trunc.w.s fda, fs,) | 6xH 


5 
对 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 学 点 数 进行 截取 操作 ， 转 换 成 32 位 定点 数 ， 并 将 结果 存 
入 寄存 器 fa 中 


B. 10. 14 异常 和 中 断 指令 
异常 返回 


eret Lo os 


将 协 处 理 器 0 有 关 态 厅 存 多 中 的 EXL 位 设置 为 0， 并 返回 协 处 理 器 0 中 EPC 寄存 器 指向 的 指令 。 
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系统 调用 
寄存 器 $v0 中 保存 了 SPIM 提供 的 系统 调用 的 个 数 〈 见 图 B-9-1)。 
跳出 
6 20 6 
产生 异常 码 ， 异常 1 为 调试 程序 保留 。 
空 操 作 
不 做 任何 操作 。 


B. 11 “小 结 

用 汇编 语言 进行 程序 设计 需要 程序 员 放 弃 高 级 语言 中 的 -- 些 有 益 的 特点 一 “如 数据 结构 、 
类 型 检查 以 及 控制 结构 一 一 以 获得 对 机 器 执行 指令 的 完全 控制 。 一 些 应 用 的 外 部 约束 ， 如 响应 
时 间 、 程 序 大 小 等 ， 需 要 程序 员 密切 关注 每 条 指令 。 然 而 ， 和 高 级 语言 程序 相 比 ， 这 种 级 别 的 关 
注 带 来 的 是 更 长 、 编 写 更 费时 、 更 难 维护 的 汇编 语言 程序 。 

此 外 ， 三 个 趋势 导致 不 必 再 用 汇编 语言 来 编写 程序 。 第 一 个 趋势 是 编译 器 的 改进 。 现 在 ， 编 译 
器 生成 的 代码 可 以 与 最 好 的 手工 书写 的 代码 相 媳 美 一 -有 时 候 甚 至 会 更 好 。 第 二 个 趋势 是 新 处 理 器 
的 速度 不 仅 更 快 ， 而 且 对 于 那些 可 以 同时 执行 多 条 指令 的 处 理 器 ， 手 工 编程 也 变 得 更 加 困难 。 此 
外 ， 现 代 计算 机 的 快速 发 展 也 支持 高 级 语言 程序 不 再 依赖 单一 的 体系 结构 。 最 后 ， 我 们 见证 了 日 小 
复杂 的 应 用 趋势 ， 不 仅 有 复杂 的 图 形 界面 ， 而 且 还 有 许多 先前 不 曾 遇 见 的 特征 。 由 程序 员 组 成 的 团 
队 合 作 开 发 的 大 规模 应 用 程序 需要 有 由 高 级 语言 提供 的 模块 化 设计 思想 和 语义 检查 的 特点 。 
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MIPS32T™ Architecture for Frogrammers Volume I: Introduction to the MIPS32™ Architecture 
Chtip:/mips.com/content/D ocumenitation/MIPSDocumeniation/Processor Architecture/ 

Archi tectureProgrammingPublicationsforMIPS32/MDO0082-2B-MIPS32INTA4 FP-02.00.paf 

getDownload) 


MIPS32™ Architecture for Programmers Volume [I: The MIPS327w Instruction Set 


Chttp: /mips. com/content/Documentation/MIPSDocumentation/Processor Arch itecture/ 
Architecture ProgrammingPubl icationsforMIPS32/MDOO086-2B-MIPS32BIS-AFP-02.00 Pa 
getDownload) 


MIPS32T™ Architecture for Programmers Volume JJI: The MIPS32™ Privileged Resource Architecture 
Chttp:/mips. com/content/Documentation/MIPSDocumentati on/ProcessorArchitecture/ 

Architecture Programm ingPublicationsforMIPS32/MDO00090-2B-MIPS32PRA-AFP.02 00.paf’ 

getDownload) 


B. 13 练习 题 
B.1 [5] <B.5 >B.5 节 描述 了 在 大 多 数 MIPS 系统 中 ， 内 存 是 如 何 划分 的 。 请 采用 其 他 的 方法 ， 实 现 相同 结果 。 
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B.2 [20] < B.6 > 用 更 少 的 指令 重 写 fact 程序 。 
B.3 [5] <B.7 > 用 户 程序 使 用 寄存 器 $k0 或 $k1 时 总 是 安全 的 么 ? 
B.4 [25] <B.7 > B.7 节 介绍 了 一 种 非常 简单 的 异常 处 理 代 码 。 这 种 处 理 方式 的 一 个 严重 的 缺陷 在 于 它 需 
要 很 长 的 时 间 来 使 中 断 无 效 。 这 意味 着 快速 VO 设备 发 出 的 中 断 会 丢失 。 请 编写 更 好 的 可 中 断 的 异常 
处 理 程序 ， 能 尽快 使 中 断 有 效 。 
B.5 [15] <B.7> 简 单 的 异常 处 理 程序 总 是 跳 回 异常 之 后 的 指令 。 这 种 操作 运行 良好 ， 除 非 导致 异常 的 指 
令 处 在 分 支 指令 的 延迟 槽 中 。 这 样 的 话 ， 下 一 条 指令 即 是 转移 的 目标 。 编 写 更 好 的 程序 ， 使 用 了 PC 寄 
存 器 来 决定 异常 之 后 执行 哪 一 条 指令 。 
B.6 [5] <B,.9 > 使 用 SPIM， 编 写 、 验 证 一 个 加 法 器 程序 : 重复 读 人 整数 并 对 它们 相 加 求 和 。 当 输入 为 0 
时 停止 程序 ， 并 输出 累加 和 。 使 用 B. 9 节 介 绍 的 SPIM 系统 调用 。 
B.7 [5] <B.9 > 使 用 SPIM， 编 写 、 验 证 一 个 程序 : 读 入 三 个 整数 ， 对 两 个 最 大 的 数 求 和 并 输出 结果 。 使 
用 B.9 节 介 绍 的 SPIM 系统 调用 。 你 可 以 任意 中 断 程序 。 
B.8 [5] < B.9 > 使 用 SPIM， 编 写 、 验 证 一 个 程序 : 使 用 SPIM 的 系统 调用 读 人 一 个 正 整数 。 如 果 整 数 为 非 
正 ， 程 序 终止 ， 输 出 “Invalid Entry”; 后 则 程序 输出 整数 每 个 数字 的 名 称 ， 以 空格 分 隔 。 例 如 ， 如 果 
用 户 输入 “728”， 输 出 “Seven Two Eight”。 
B.9 [25] < B.9 > 用 MIPS 汇编 语言 编写 程序 并 验证 : 计算 并 输出 前 100 个 素数 。 如 果 除 了 1 和 mm 之 外 没有 
哪个 数 能 整除 n， 那 么 ” 为 素数 。 你 应 该 实现 两 个 例 程 : 
。 test_prime(n) 如 果 是 素数 ， 返 回 1; 如 果 不 是 则 返回 0。 
。 main() 循环 测试 每 个 整数 是 否 为 素数 ， 并 输出 前 100 个 素数 。 
在 SPIM 上 验证 你 的 程序 。 
B. 10 [10] <B.6，B.9 > 使 用 SPIM， 编写、 验证 一 个 递归 程序 ， 来 解决 汉 庄 塔 问题 (需要 使 用 堆栈 来 支持 
递归 ) 。 汉 诺 塔 有 三 根 杆 子 (1、2 和 3) 和 nn 个 盘子 (n 是 可 变 的 ， 典 型 的 数值 在 1 到 8 之 间 )。 盘 子 
1 比 盘 子 2 小 ， 盘 子 2 比 盘 子 3 小 ， 以 此 类 推 ， 盘子 是 最 大 的 。 最 开始 ， 所 有 的 盘子 都 在 杆子 1 上， 
盘子 在 最 下 面 ， 上 面 是 盘子 n -1， 以 此 类 推 盘子 1 在 最 上 面 。 自 标 是 将 所 有 的 盘子 移 到 杆子 2 
上 。 每 次 只 能 移动 一 个 盘子 ， 也 就 是 说 ， 任 何 一 个 杆子 最 上 面 的 盘子 只 能 移 到 另外 两 个 杆子 的 顶端 。 
此 外 ， 还 不 能 将 大 盘子 放置 在 小 盘子 上 。 
下 面 的 程序 会 对 你 用 汇编 语言 编程 有 所 帮助 。 
/* move Smallest disks from start to finish using 
extra */ 


void hanci (int n, int start, int finish, int extra){ 
if(n != 0){ 


hanoi (n-1, start, extra,finish}. 
print string("Move disk’"); 
print int(n),; 
print string("from Peg') 
print int (start),; 
print string('"to peg'"); 
print int (fnish) ; 
print _ string(".\n'); 
hanoi (n-1, extra, finish, start),; 
} 
} 
main(){ 
int n; 
print string("Enter number of disks>"); 
n = read int () ; 
hanoi(n, 1, 2, 3); 
return 0; 
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让 想 乡 I 羽 | Vi 硬件 /软件 接口 《( 原 书 第 4 版 


Computer Organization and Design 
The Hardware / Software lnterface Fourth Edition 


这 本 最 畅销 的 计算 机 组 成 书籍 经 过 全 面 更 新 ， 关 注 现今 发 生 在 计算 机 体系 结构 领域 的 革命 性 变 草 : 从 单 处 理 冀 
pi ES 
言 、 计 算 机 算术 、 流 水 线 、 存 储 器 层次 结构 以 及 I/O 等 基本 功能 。 此 外 ， 本 书 还 包括 一 些 关 于 ARM 和 x86 体 系 结构 的 


本 书 特色 
@ 涵盖 从 串 行 计算 到 并 行 计 算 的 革命 性 变革 ， 新 增 了 关于 并 行 化 的 一 章 ， 并 且 每 章 中 还 有 一 些 强调 并 行 硬件 和 
软件 主题 的 小 市 。 


@ 新 增 一 个 由 NVIDIA 的 首席 科学 家 和 架构 主管 撰写 的 附录 ， 介 绍 了 现代 GPU 的 出 现 和 重要 性 ， 首 次 详细 描述 了 
这 个 针对 可 视 计 算 进 行 了 优化 的 高 度 并 行 化 、 多 线程 、 多 核 的 处 理 希 。 

@@ 描述 一 种 度量 多 核 性 能 的 独特 方法 一 一 Roofline 模 型 ， 自 市 AMD Opteron X4、Intel Xeon 5000、Sun UltraSPARC 
T2 和 IBM Cell 的 基准 测试 和 分 析 。 

@ 涵盖 一 些 关 于 闪存 和 虚拟 机 的 新 内 容 。 

| 提供 了 大 量 语 有 启发 性 的 练习 题 。 

@ 将 AMD Opteron X4 和 Intel Nehalem 作 为 贯穿 本 书 的 实例 。， 

@ 用 SPEC CPU2006 组 件 更 新 了 所 有 处 理 器 性 能 实例 。 
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